Kelection20

탁가이버·2025년 3월 7일
0

대선 결과 분석

목록 보기
16/18

20대 대선: 선형혼합모형(LMM) 및 시뮬레이션 비교


1️⃣ 모델 적합도 및 잔차 분석

  • REML Criterion at Convergence: -330.3

    • 이전 모델보다 REML 값이 낮아짐 → 모델이 데이터를 더 잘 설명하고 있음.
  • Scaled Residuals (잔차 분석)

         Min       1Q   Median       3Q      Max 
      -2.92824 -0.57322  0.06389  0.62150  2.15529  
    • 중앙값(0.06389) → 0에 가까움잔차가 정규 분포를 따름.
    • 최소값(-2.93)과 최대값(2.15) → 일부 데이터에서 예측 오차 발생 가능.

2️⃣ 랜덤 효과 분석 (Random Effects)

 Groups   Name        Variance Std.Dev.
 region   (Intercept) 0.02027  0.1424  
 Residual             0.01098  0.1048  
  • 지역(region) 단위 변동성: 0.02027 (표준편차 0.1424)
    • 지역별 차이가 존재하지만, 전체 변동성에 미치는 영향은 상대적으로 작음.
  • 잔차 변동성: 0.01098 (표준편차 0.1048)
    • 모델이 데이터 변동성을 비교적 잘 설명하고 있음.

3️⃣ 고정 효과 분석 (Fixed Effects)

📌 유의미한 변수 (p-value < 0.05)

변수추정값 (Estimate)표준오차 (Std. Error)t 값 (t-value)해석
(Intercept)1.247920.0528223.628기본 K 값의 평균값
poly(elderly_ratio, 2)2-0.589950.12370-4.769고령층 비율이 일정 수준 이상 증가하면 K 값이 감소하는 패턴

🚫 유의미하지 않은 변수 (p-value > 0.05)

  • poly(elderly_ratio, 2)1 (-0.5331, p = 0.3172) → 1차 고령층 비율 자체는 유의미한 영향을 주지 않음.
  • unclassified_rate (0.0135, p = 0.375) → 미분류표 비율이 K 값에 미치는 직접적인 영향이 크지 않음.
  • ballot_design_bias (-0.0138, p = 0.565) → 투표 용지 설계 편향과 K 값 간에 의미 있는 관계 없음.
  • scanner_error (0.4241, p = 0.714) → 스캐너 오류도 유의미한 영향을 보이지 않음.
  • manipulation_factor (0.0062, p = 0.161) → 조작 가능성이 K 값에 직접적으로 미치는 영향 없음.
  • elderly_conservative_interaction (0.0196, p = 0.316) → 보수 성향과 고령층 비율의 상호작용이 K 값 변화에 유의미한 영향을 주지 않음.
  • unclassified_conservative_interaction (0.0674, p = 0.994) → 보수 성향이 강한 지역에서 미분류표 비율이 K 값에 미치는 영향이 크지 않음.
  • manipulation_conservative_interaction (0.0304, p = 0.444) → 조작 가능성과 보수 성향의 상호작용도 의미 있는 영향을 주지 않음.

결론:

  • 고령층 비율이 증가하면 K 값이 감소하는 경향이 통계적으로 유의미함.
  • 다른 변수들은 K 값에 유의미한 영향을 주지 않음 → 특정 변수들이 K 값 변동에 강한 영향을 미치지 않았을 가능성.

4️⃣ 시뮬레이션 결과 비교

       K               sim_K      
 Min.   :0.8023   Min.   :1.1912  
 1st Qu.:1.1177   1st Qu.:1.3040  
 Median :1.2764   Median :1.3952  
 Mean   :1.2712   Mean   :1.4106  
 3rd Qu.:1.4229   3rd Qu.:1.4908  
 Max.   :1.6961   Max.   :2.0133  

시뮬레이션과 실제 데이터 비교

  • 평균: 실제(1.2712) vs. 시뮬레이션(1.4106) → 시뮬레이션이 다소 높게 예측됨.
  • 중앙값: 실제(1.2764) vs. 시뮬레이션(1.3952) → 시뮬레이션이 약간 높게 예측됨.
  • 최대값: 실제(1.6961) vs. 시뮬레이션(2.0133) → 시뮬레이션이 실제보다 높음.

결론:

  • 시뮬레이션이 전반적으로 실제보다 높은 값을 예측하는 경향이 있음.
  • 특히 높은 K 값 영역에서 시뮬레이션이 과대예측됨.
  • 최소값(K가 작은 영역)에서도 시뮬레이션이 실제보다 높게 예측됨.

5️⃣ 결론 및 개선 방향

최종 결론

1️⃣ 고령층 비율이 일정 수준 이상 증가하면 K 값이 감소하는 경향이 확인됨

  • 단순히 "고령층 비율이 많으면 K 값이 높다"는 해석이 성립하지 않음.

2️⃣ 다른 변수들은 K 값에 유의미한 영향을 보이지 않음

  • 스캐너 오류, 미분류표 비율, 투표 용지 설계 편향 등이 K 값에 미치는 영향이 통계적으로 유의하지 않음.
  • 이는 특정 변수가 K 값 변동에 결정적인 역할을 하지 않았음을 의미할 가능성이 있음.

3️⃣ 시뮬레이션이 실제보다 높은 값을 예측하는 경향이 있음

  • 모델이 K 값이 높은 경우 과대평가하는 경향.
  • K 값이 낮은 경우에도 시뮬레이션이 실제보다 높게 예측됨.

추가 개선 방향

시뮬레이션 모델 보정

  • 현재 sim_K가 높은 K 값을 과대평가하는 경향이 있음.
  • 고령층 비율이 높은 지역에서 K 값이 낮아지는 효과를 더 반영할 필요 있음.
  • sim_K = 1.3 + 3.2 * sim_alpha * unclassified_rate_raw - 0.25 * sim_beta 형태로 조정 가능.

랜덤 효과 조정

  • 지역(region)이 K 값 변동에 큰 영향을 미치지 않음.
  • 지역별 차이를 설명할 추가적인 변수(예: 교육 수준, 경제 수준 등)를 고려하면 더 정밀한 분석 가능.

최종 결론: K 값 변동의 주요 요인은 고령층 비율이며, 시뮬레이션이 실제보다 다소 높게 예측됨. 추가 조정을 통해 더욱 정밀한 분석 가능!

profile
더 나은 세상은 가능하다를 믿고 실천하는 활동가

0개의 댓글

관련 채용 정보