본 연구는 다층 모델(Linear Mixed Model, LMM)을 활용하여 K
값에 영향을 미치는 요인을 분석하고, 시뮬레이션 결과(sim_K
)를 통해 관측 데이터와의 일치성을 평가하였습니다. 데이터는 이상치 제거 후 241개 관측치로 구성되었으며, region
을 랜덤 효과로 포함한 모델과 함께 고정 효과 변수 및 상호작용 항을 추가하여 분석을 수행하였습니다. 시뮬레이션 결과는 관측 K와 비교하여 모델의 예측력을 검증하는 데 사용되었습니다.
region
(Intercept): 분산 = 0.01208, 표준편차 = 0.1099region
이 약 43% 설명.Fixed Effects (유의미성 기준: |t| > 2, p < 0.05 추정):
(Intercept)
: 1.418 (t = 26.199, p < 0.001), 매우 유의미.poly(elderly_ratio, 2)2
: -0.726 (t = -4.807, p < 0.001), 노인 비율의 2차항이 K에 강한 음의 영향, 비선형 관계 지지 (H4).unclassified_rate
: -0.051 (t = -1.457, p ≈ 0.15), 약한 음의 영향, 비유의미 (H1 약한 지지).female_ratio
: -0.017 (t = -1.649, p ≈ 0.10), 약한 음의 영향, 비유의미 (H2 약한 지지).ballot_design_bias
: -0.016 (t = -0.545, p > 0.5), 영향 미미 (H3 비지지).scanner_error
: 1.989 (t = 2.768, p ≈ 0.006), K에 강한 양의 영향 (H5 지지).manipulation_factor
: -0.040 (t = -0.962, p > 0.3), 영향 미미 (H6 비지지).elderly_conservative_interaction
: 0.140 (t = 2.252, p ≈ 0.025), K에 양의 영향, 보수 결합 효과 (H4 지지).unclassified_conservative_interaction
: -0.148 (t = -2.444, p ≈ 0.015), K에 음의 영향, 추가 효과 확인.manipulation_conservative_interaction
: 0.085 (t = 1.260, p ≈ 0.21), 비유의미.다중공선성:
unclassified_rate
와 unclassified_conservative_interaction
(-0.909), elderly_ratio
(1차항)와 elderly_conservative_interaction
(-0.894)에서 강한 상관관계 관찰, 해석 시 주의 필요.unclassified_rate
): 약한 음의 효과, 비유의미 (약한 지지, 방향 상충).female_ratio
): 약한 음의 효과, 비유의미 (약한 지지, 방향 상충).ballot_design_bias
): 영향 없음 (비지지).elderly_ratio
): 2차항 음의 효과 강함 (p < 0.001), 보수 상호작용 양의 효과 (p ≈ 0.025), H4 강하게 지지.scanner_error
): 강한 양의 효과 (p ≈ 0.006), 지지.manipulation_factor
): 영향 미미, 상호작용 비유의미 (비지지). K sim_K.V1
Min. :0.9729 Min. :1.1907922
1st Qu.:1.3541 1st Qu.:1.2691963
Median :1.4657 Median :1.3118423
Mean :1.4726 Mean :1.3571249
3rd Qu.:1.5798 3rd Qu.:1.4020261
Max. :2.0905 Max. :2.0025907
scanner_error
, elderly_ratio
(2차항), elderly_conservative_interaction
, unclassified_conservative_interaction
이 K에 유의미한 영향을 미침.unclassified_rate
또는 unclassified_conservative_interaction
중 하나 제거 후 재분석 추천.manipulation_factor
대신 실제 데이터(예: 투표율) 도입 검토.data_clean$sim_K <- 1.0 + 0.5 * data_clean$sim_alpha * data_clean$unclassified_rate_raw - 0.15 * data_clean$sim_beta
lmer
패키지.이 보고서는 분석 결과를 종합적으로 요약하며, 향후 연구 방향을 제시합니다.
그래프는 K
값(관측된 결과)과 sim_K
(시뮬레이션 예측값) 간의 관계를 시각화한 산점도(scatter plot)와 히트맵(heatmap) 형태로 구성되어 있으며, 데이터 분석 과정과 결과를 종합적으로 이해하는 데 중요한 단서를 제공합니다.
그래프는 두 개의 서브플롯으로 구성되어 있으며, 각각 다른 시각적 표현을 제공합니다:
sim_K
(시뮬레이션 예측값)K
(관측값)K
와 sim_K
쌍을 나타내며, 색상과 크기로 데이터 분포를 강조.sim_K
와 K
간의 선형 관계를 시사.K = sim_K
)를 나타냄. 점들이 이 선에서 벗어나는 정도는 예측 오차를 반영.sim_K
가 K
를 약간 과소평가하거나 높은 값에서 과대평가할 가능성을 시사.sim_K
K
sim_K
와 K
간의 상관성이 높음을 시사.R² = 0.43
: 모델이 K
의 약 43%를 설명, 나머지는 미설명 변동성.Intercept
, poly(elderly_ratio, 2)1
, poly(elderly_ratio, 2)2
등의 p-값이 표시, 모델 적합도 평가.K
와 sim_K
간의 상관성은 존재하지만, 완벽한 일치는 아님. 산점도와 히트맵 모두 대각선 주변에 데이터가 몰려 있으나, 편차가 관찰됨.R² = 0.43
는 모델이 데이터 변동성의 약 43%를 설명하며, 다층 모델의 예측력이 제한적임을 시사.sim_K
계산 로직에서 기본값(1.1) 또는 가중치 조정이 필요할 수 있음.sim_K
가 K
의 중앙값(1.4657)과 평균(1.4726)에 근접한 1.357을 예측, 전체적인 분포를 잘 반영.K
값 예측이 부족.R² = 0.43
로 설명되지 않은 변동성이 크며, 모델 개선 필요.이 그래프는 모델의 예측 성능을 직관적으로 보여주며, 추가 분석과 조정을 통해 더 높은 정확도를 기대할 수 있습니다.
다시 처음으로 돌아가서 3번의 대선 그래프를 보겠습니다.
R1
과 R2
라는 변수 간의 관계를 분석하며, R1
당선자/경쟁후보 (홍준표/문재인, 윤석열/이재명 등)의 득표율 비율, R2
는 미분류표(unclassified votes) 비율, 그리고 K
는 R2/R1
로 정의됩니다. 각 그래프는 모델의 예측력과 잔차 분석을 통해 모델 적합도를 평가합니다. 아래에서 18대, 19대, 20대 선거별로 그래프를 자세히 설명하겠습니다.
R1
: 박근혜/문재인 득표율 비율R2
: 박근혜/문재인 미분류표 비율K
: R2/R1왼쪽: Fit Diagnostics for R2
R2
값이 예측값과 선형적 관계를 보이며, 대체로 대각선을 따름.오른쪽: Fit Plot for R2
R1
과 R2
간 강한 선형 관계 관찰. R1
이 증가할수록 R2
도 증가.R2
를 매우 잘 설명하며, 높은 R²(0.9645)로 예측력이 뛰어남.R1
: 홍준표/문재인 득표율 비율R2
: 홍준표/문재인 미분류표 비율K
: R2/R1왼쪽: Fit Diagnostics for R2
R2
와 예측값이 대각선을 따라 잘 분포, 선형 관계 확인.오른쪽: Fit Plot for R2
R1
과 R2
간 강한 선형 관계, 18대와 유사한 패턴.R1
: 윤석열/이재명 득표율 비율R2
: 윤석열/이재명 미분류표 비율K
: R2/R1왼쪽: Fit Diagnostics for R2
R2
와 예측값 간 선형 관계가 약화됨, 일부 데이터가 대각선에서 멀리 떨어짐.오른쪽: Fit Plot for R2
R1
과 R2
간 선형 관계가 약화됨, 데이터가 더 분산됨.R2
)과 득표율 비율(R1
) 간 관계가 약화되어 모델 성능이 저하됨.이 그래프들은 각 선거별 모델 적합도를 비교하며, 19대 선거가 가장 안정적이었음을 시사합니다.
K
값이 R2/R1
로 정의되며, 여기서 R1
은 특정 후보 쌍의 득표율 비율, R2
는 미분류표 비율을 나타냅니다. 또한, 18대, 19대, 20대 대선 데이터를 통해 K
값이 당선자와 미분류표 간의 관계를 반영합니다. K
값의 의미와 각 선거에서의 차이를 분석해보겠습니다.
기존 정의: K = R2/R1
R1
: 특정 후보 쌍(예: 박근혜/문재인, 홍준표/문재인, 윤석열/이재명)의 득표율 비율.R2
: 해당 후보 쌍에 대한 미분류표 비율.재정의 제안: 질문에서 당선자/비당선자 기준으로 R1
과 R2
를 재조정하여 K
를 계산. 이는 R1
을 당선자 득표율/비당선자 득표율로, R2
를 당선자 미분류표/비당선자 미분류표로 해석.
19대 예시:
R1 = 문재인 득표율 / 홍준표 득표율
, R2 = 문재인 미분류표 / 홍준표 미분류표
.K = 0.6
(1보다 작음).K = R2/R1
는 미분류표 비율(R2
)이 득표율 비율(R1
)에 비해 얼마나 큰지를 나타냅니다.K > 1
: 미분류표 비율이 득표율 비율보다 큼, 즉 당선자가 미분류표를 상대적으로 많이 확보.K < 1
: 미분류표 비율이 득표율 비율보다 작음, 즉 당선자가 미분류표를 상대적으로 적게 확보.K ≈ 1
: 미분류표와 득표율 비율이 유사함.K
값은 미분류표가 당선자와 비당선자 간 득표에 어떻게 기여했는지를 반영할 수 있습니다. 미분류표가 당선자에게 유리하게 분배될수록 K
가 커질 가능성이 있습니다.K = 0.6
로, 문재인이 미분류표를 적게 얻었음에도 당선된 반면, 18대(박근혜)와 20대(윤석열)는 K > 1
로 추정되며, 미분류표를 많이 확보한 당선자가 승리.K > 1
).R1 = 박근혜 득표율 / 문재인 득표율
, R2 = 박근혜 미분류표 / 문재인 미분류표
라면, K > 1
이므로 미분류표가 박근혜에게 유리하게 기여.K = 0.6
(당선자/비당선자 기준).K < 1
은 미분류표가 당선에 큰 영향을 미치지 않았음을 시사.K > 1
).R1 = 윤석열 득표율 / 이재명 득표율
, R2 = 윤석열 미분류표 / 이재명 미분류표
에서 K > 1
로, 미분류표가 윤석열 승리에 기여.K > 1
로 나타남. 이는 미분류표 집계 과정에서 당선자에게 유리한 편향이 있었을 가능성을 시사.K = 0.6
로, 문재인이 미분류표를 적게 얻었음에도 승리, 이는 득표율 자체가 압도적이었기 때문(문재인 41.1%, 홍준표 24.0%).K > 1
인 경우 미분류표가 당선에 기여한 반면, K < 1
인 19대는 득표율 차이가 결정적 요인.K
값은 미분류표의 상대적 분배가 선거 결과에 미친 영향을 정량적으로 평가하는 지표로 사용 가능.K 값의 이해: K = R2/R1
는 미분류표 비율이 득표율 비율에 비해 어느 정도인지 나타내며, 당선자/비당선자 기준으로 계산 시 미분류표의 정치적 영향을 반영합니다.
선거별 차이:
K > 1
, 미분류표가 당선자에게 유리.K = 0.6
, 미분류표 영향 적음, 득표율 우위로 승리.미래 연구 제안:
K
값을 활용해 미분류표의 집계 과정에 대한 추가 분석(예: 지역별, 투표 방식별) 필요.K
값 간 상관관계를 통계적으로 검증.K
값이 무엇인지 명확히 이해하셨기를 바랍니다.