
20대 대선: 선형혼합모형(LMM) 및 시뮬레이션 비교
1️⃣ 모델 적합도 및 잔차 분석
2️⃣ 랜덤 효과 분석 (Random Effects)
Groups Name Variance Std.Dev.
region (Intercept) 0.02027 0.1424
Residual 0.01098 0.1048
- 지역(region) 단위 변동성: 0.02027 (표준편차 0.1424)
- 지역별 차이가 존재하지만, 전체 변동성에 미치는 영향은 상대적으로 작음.
- 잔차 변동성: 0.01098 (표준편차 0.1048)
- 모델이 데이터 변동성을 비교적 잘 설명하고 있음.
3️⃣ 고정 효과 분석 (Fixed Effects)
📌 유의미한 변수 (p-value < 0.05)
변수 | 추정값 (Estimate) | 표준오차 (Std. Error) | t 값 (t-value) | 해석 |
---|
(Intercept) | 1.24792 | 0.05282 | 23.628 | 기본 K 값의 평균값 |
poly(elderly_ratio, 2)2 | -0.58995 | 0.12370 | -4.769 | 고령층 비율이 일정 수준 이상 증가하면 K 값이 감소하는 패턴 |
🚫 유의미하지 않은 변수 (p-value > 0.05)
- poly(elderly_ratio, 2)1 (-0.5331, p = 0.3172) → 1차 고령층 비율 자체는 유의미한 영향을 주지 않음.
- unclassified_rate (0.0135, p = 0.375) → 미분류표 비율이 K 값에 미치는 직접적인 영향이 크지 않음.
- ballot_design_bias (-0.0138, p = 0.565) → 투표 용지 설계 편향과 K 값 간에 의미 있는 관계 없음.
- scanner_error (0.4241, p = 0.714) → 스캐너 오류도 유의미한 영향을 보이지 않음.
- manipulation_factor (0.0062, p = 0.161) → 조작 가능성이 K 값에 직접적으로 미치는 영향 없음.
- elderly_conservative_interaction (0.0196, p = 0.316) → 보수 성향과 고령층 비율의 상호작용이 K 값 변화에 유의미한 영향을 주지 않음.
- unclassified_conservative_interaction (0.0674, p = 0.994) → 보수 성향이 강한 지역에서 미분류표 비율이 K 값에 미치는 영향이 크지 않음.
- manipulation_conservative_interaction (0.0304, p = 0.444) → 조작 가능성과 보수 성향의 상호작용도 의미 있는 영향을 주지 않음.
✅ 결론:
- 고령층 비율이 증가하면 K 값이 감소하는 경향이 통계적으로 유의미함.
- 다른 변수들은 K 값에 유의미한 영향을 주지 않음 → 특정 변수들이 K 값 변동에 강한 영향을 미치지 않았을 가능성.
4️⃣ 시뮬레이션 결과 비교
K sim_K
Min. :0.8023 Min. :1.1912
1st Qu.:1.1177 1st Qu.:1.3040
Median :1.2764 Median :1.3952
Mean :1.2712 Mean :1.4106
3rd Qu.:1.4229 3rd Qu.:1.4908
Max. :1.6961 Max. :2.0133
✅ 시뮬레이션과 실제 데이터 비교
- 평균: 실제(1.2712) vs. 시뮬레이션(1.4106) → 시뮬레이션이 다소 높게 예측됨.
- 중앙값: 실제(1.2764) vs. 시뮬레이션(1.3952) → 시뮬레이션이 약간 높게 예측됨.
- 최대값: 실제(1.6961) vs. 시뮬레이션(2.0133) → 시뮬레이션이 실제보다 높음.
결론:
- 시뮬레이션이 전반적으로 실제보다 높은 값을 예측하는 경향이 있음.
- 특히 높은 K 값 영역에서 시뮬레이션이 과대예측됨.
- 최소값(K가 작은 영역)에서도 시뮬레이션이 실제보다 높게 예측됨.
5️⃣ 결론 및 개선 방향
✅ 최종 결론
1️⃣ 고령층 비율이 일정 수준 이상 증가하면 K 값이 감소하는 경향이 확인됨
- 단순히 "고령층 비율이 많으면 K 값이 높다"는 해석이 성립하지 않음.
2️⃣ 다른 변수들은 K 값에 유의미한 영향을 보이지 않음
- 스캐너 오류, 미분류표 비율, 투표 용지 설계 편향 등이 K 값에 미치는 영향이 통계적으로 유의하지 않음.
- 이는 특정 변수가 K 값 변동에 결정적인 역할을 하지 않았음을 의미할 가능성이 있음.
3️⃣ 시뮬레이션이 실제보다 높은 값을 예측하는 경향이 있음
- 모델이 K 값이 높은 경우 과대평가하는 경향.
- K 값이 낮은 경우에도 시뮬레이션이 실제보다 높게 예측됨.
추가 개선 방향
✅ 시뮬레이션 모델 보정
- 현재
sim_K
가 높은 K 값을 과대평가하는 경향이 있음.
- 고령층 비율이 높은 지역에서 K 값이 낮아지는 효과를 더 반영할 필요 있음.
sim_K = 1.3 + 3.2 * sim_alpha * unclassified_rate_raw - 0.25 * sim_beta
형태로 조정 가능.
✅ 랜덤 효과 조정
- 지역(
region
)이 K 값 변동에 큰 영향을 미치지 않음.
- 지역별 차이를 설명할 추가적인 변수(예: 교육 수준, 경제 수준 등)를 고려하면 더 정밀한 분석 가능.
최종 결론: K 값 변동의 주요 요인은 고령층 비율이며, 시뮬레이션이 실제보다 다소 높게 예측됨. 추가 조정을 통해 더욱 정밀한 분석 가능!