Kvalue

탁가이버·2025년 3월 7일
0

대선 결과 분석

목록 보기
18/18
post-thumbnail

최종 결과 보고서

1. 연구 개요

본 연구는 다층 모델(Linear Mixed Model, LMM)을 활용하여 K 값에 영향을 미치는 요인을 분석하고, 시뮬레이션 결과(sim_K)를 통해 관측 데이터와의 일치성을 평가하였습니다. 데이터는 이상치 제거 후 241개 관측치로 구성되었으며, region을 랜덤 효과로 포함한 모델과 함께 고정 효과 변수 및 상호작용 항을 추가하여 분석을 수행하였습니다. 시뮬레이션 결과는 관측 K와 비교하여 모델의 예측력을 검증하는 데 사용되었습니다.


2. 다층 모델 분석 결과

2.1 모델 적합성
  • REML 값: -243.4
    • 이상치 제거 및 모델 개선 후 REML 값이 감소하여 적합도가 향상됨을 나타냄.
  • Scaled Residuals:
    • 범위: -2.49 ~ 2.99
    • 중앙값(Median): -0.01875 (0에 근접, 편향 최소화)
    • 분포: 1Q(-0.55)와 3Q(0.60)로 대체로 대칭적, 잔차 안정성 유지
2.2 랜덤 효과
  • Random Effects:
    • region (Intercept): 분산 = 0.01208, 표준편차 = 0.1099
    • 잔차(Residual): 분산 = 0.01586, 표준편차 = 0.1259
    • 관측치: 241개, 그룹: 16개
  • 해석:
    • 전체 분산(0.01208 + 0.01586 = 0.02794) 중 region이 약 43% 설명.
    • 잔차 분산 감소로 모델 설명력 향상.
2.3 고정 효과
  • Fixed Effects (유의미성 기준: |t| > 2, p < 0.05 추정):

    • (Intercept): 1.418 (t = 26.199, p < 0.001), 매우 유의미.
    • poly(elderly_ratio, 2)2: -0.726 (t = -4.807, p < 0.001), 노인 비율의 2차항이 K에 강한 음의 영향, 비선형 관계 지지 (H4).
    • unclassified_rate: -0.051 (t = -1.457, p ≈ 0.15), 약한 음의 영향, 비유의미 (H1 약한 지지).
    • female_ratio: -0.017 (t = -1.649, p ≈ 0.10), 약한 음의 영향, 비유의미 (H2 약한 지지).
    • ballot_design_bias: -0.016 (t = -0.545, p > 0.5), 영향 미미 (H3 비지지).
    • scanner_error: 1.989 (t = 2.768, p ≈ 0.006), K에 강한 양의 영향 (H5 지지).
    • manipulation_factor: -0.040 (t = -0.962, p > 0.3), 영향 미미 (H6 비지지).
    • elderly_conservative_interaction: 0.140 (t = 2.252, p ≈ 0.025), K에 양의 영향, 보수 결합 효과 (H4 지지).
    • unclassified_conservative_interaction: -0.148 (t = -2.444, p ≈ 0.015), K에 음의 영향, 추가 효과 확인.
    • manipulation_conservative_interaction: 0.085 (t = 1.260, p ≈ 0.21), 비유의미.
  • 다중공선성:

    • unclassified_rateunclassified_conservative_interaction (-0.909), elderly_ratio (1차항)와 elderly_conservative_interaction (-0.894)에서 강한 상관관계 관찰, 해석 시 주의 필요.
2.4 통합 가설 평가
  • H1 (unclassified_rate): 약한 음의 효과, 비유의미 (약한 지지, 방향 상충).
  • H2 (female_ratio): 약한 음의 효과, 비유의미 (약한 지지, 방향 상충).
  • H3 (ballot_design_bias): 영향 없음 (비지지).
  • H4 (elderly_ratio): 2차항 음의 효과 강함 (p < 0.001), 보수 상호작용 양의 효과 (p ≈ 0.025), H4 강하게 지지.
  • H5 (scanner_error): 강한 양의 효과 (p ≈ 0.006), 지지.
  • H6 (manipulation_factor): 영향 미미, 상호작용 비유의미 (비지지).

3. 시뮬레이션 결과

       K               sim_K.V1      
 Min.   :0.9729   Min.   :1.1907922  
 1st Qu.:1.3541   1st Qu.:1.2691963  
 Median :1.4657   Median :1.3118423  
 Mean   :1.4726   Mean   :1.3571249  
 3rd Qu.:1.5798   3rd Qu.:1.4020261  
 Max.   :2.0905   Max.   :2.0025907  
  • 관측 K: 평균 1.473, 범위 0.97~2.09.
  • 시뮬레이션 K: 평균 1.357, 범위 1.19~2.00.
  • 비교:
    • 평균: 1.357 (관측 K 1.473과의 차이 0.116), 약간 과소평가.
    • 최소값: 1.19 (관측 K 0.97과의 차이 0.22), 범위 하단 미달.
    • 최대값: 2.00 (관측 K 2.09와의 차이 0.09), 범위 상단 근접.
3.1 평가
  • 장점:
    • 평균(1.357)이 관측 K(1.473)에 비교적 근접, 예측력 양호.
    • 최대값(2.00)이 관측 K(2.09)에 근접, 상단 범위 충족.
  • 문제:
    • 최소값(1.19)이 관측 K(0.97)에 미달, 범위 하단 커버 부족.
  • 원인:
    • 시뮬레이션 로직에서 사용된 변수 가중치와 상수항이 관측 K의 극단값을 충분히 반영하지 못함.

4. 결론

  • 모델 결과:
    • scanner_error, elderly_ratio (2차항), elderly_conservative_interaction, unclassified_conservative_interaction이 K에 유의미한 영향을 미침.
    • H4 (노인 비율의 비선형 효과 및 보수 상호작용)와 H5 (스캐너 오류)가 강하게 지지됨.
    • H1, H2는 약한 지지, H3, H6는 비지지.
  • 시뮬레이션 결과:
    • 평균 예측력은 양호하나, 최소값(1.19)이 관측 K(0.97)에 미달하여 범위 완전 재현 미흡.
  • 의의:
    • 노인 비율의 비선형 효과와 스캐너 오류가 K 값에 중요한 영향을 미침을 확인.
    • 상호작용 항 추가로 모델 설명력 향상.

5. 권고사항

  1. 모델 개선:
    • 다중공선성 문제 해소를 위해 unclassified_rate 또는 unclassified_conservative_interaction 중 하나 제거 후 재분석 추천.
    • manipulation_factor 대신 실제 데이터(예: 투표율) 도입 검토.
  2. 시뮬레이션 조정:
    • 최소값 개선을 위해 상수항 하향(예: 1.1 → 1.0) 또는 가중치 조정 필요:
      data_clean$sim_K <- 1.0 + 0.5 * data_clean$sim_alpha * data_clean$unclassified_rate_raw - 0.15 * data_clean$sim_beta
  3. 추가 검증:
    • 잔차 분포 분석(Q-Q 플롯) 및 AIC/BIC 계산으로 모델 비교 추천.

6. 부록

  • 데이터: 이상치 제거 후 241개 관측치 사용.
  • 분석 도구: R, lmer 패키지.
  • 작성일: 2025년 3월 7일.

이 보고서는 분석 결과를 종합적으로 요약하며, 향후 연구 방향을 제시합니다.

그래프는 K 값(관측된 결과)과 sim_K(시뮬레이션 예측값) 간의 관계를 시각화한 산점도(scatter plot)와 히트맵(heatmap) 형태로 구성되어 있으며, 데이터 분석 과정과 결과를 종합적으로 이해하는 데 중요한 단서를 제공합니다.

1.그래프 분석

그래프는 두 개의 서브플롯으로 구성되어 있으며, 각각 다른 시각적 표현을 제공합니다:

왼쪽 서브플롯: 산점도 (Scatter Plot)

  • 제목: "관측 K vs K (이상치 제거)"
  • Y축: sim_K (시뮬레이션 예측값)
  • X축: K (관측값)
  • 데이터 포인트:
    • 각 점은 관측된 Ksim_K 쌍을 나타내며, 색상과 크기로 데이터 분포를 강조.
    • 점들은 대체로 대각선(빨간 선) 주변에 분포, sim_KK 간의 선형 관계를 시사.
  • 대각선 (빨간 선): 완벽한 일치(K = sim_K)를 나타냄. 점들이 이 선에서 벗어나는 정도는 예측 오차를 반영.
  • 분포 패턴:
    • 점들이 산포되어 있지만, 상단 오른쪽으로 기울어진 경향이 관찰됨, 이는 sim_KK를 약간 과소평가하거나 높은 값에서 과대평가할 가능성을 시사.
    • 일부 점이 대각선에서 멀리 떨어져 있음, 잔차(오차)가 큰 관측치를 나타냄.

오른쪽 서브플롯: 히트맵 (Heatmap)

  • 제목: "관측 K vs 시뮬레이션 K (이상치 제거)"
  • Y축: sim_K
  • X축: K
  • 색상 스케일:
    • 밝은 노란색에서 짙은 보라색까지, 데이터 밀도(관측 빈도)를 나타냄.
    • 밝은 색상은 높은 밀도, 짙은 색상은 낮은 밀도를 의미.
  • 패턴:
    • 대각선 근처에 높은 밀도(밝은 색)가 집중, sim_KK 간의 상관성이 높음을 시사.
    • 대각선에서 벗어난 영역(특히 좌상단과 우하단)에 낮은 밀도, 예측이 관측값과 일치하지 않는 극단값 존재.
  • 추가 정보:
    • R² = 0.43: 모델이 K의 약 43%를 설명, 나머지는 미설명 변동성.
    • Intercept, poly(elderly_ratio, 2)1, poly(elderly_ratio, 2)2 등의 p-값이 표시, 모델 적합도 평가.

2. 그래프 해석

  • 일반적 관계:
    • Ksim_K 간의 상관성은 존재하지만, 완벽한 일치는 아님. 산점도와 히트맵 모두 대각선 주변에 데이터가 몰려 있으나, 편차가 관찰됨.
  • 모델 성능:
    • R² = 0.43는 모델이 데이터 변동성의 약 43%를 설명하며, 다층 모델의 예측력이 제한적임을 시사.
    • 잔차 범위(-2.49 ~ 2.99)와 중앙값(-0.01875)이 0에 근접하므로, 전체적으로 편향은 적으나 극단값에서 오차 발생.
  • 개선 가능성:
    • 최소값(1.19)이 관측 K(0.97)보다 높고, 최대값(2.00)이 관측 K(2.09)보다 약간 낮아 범위 조정이 필요.
    • sim_K 계산 로직에서 기본값(1.1) 또는 가중치 조정이 필요할 수 있음.

3. 결론

  • 성공적 요소:
    • sim_KK의 중앙값(1.4657)과 평균(1.4726)에 근접한 1.357을 예측, 전체적인 분포를 잘 반영.
    • 히트맵의 밀도 분포는 모델의 예측이 관측값과 대체로 일치함을 보여줌.
  • 한계:
    • 최소값과 최대값에서 범위 미달, 특히 낮은 K 값 예측이 부족.
    • R² = 0.43로 설명되지 않은 변동성이 크며, 모델 개선 필요.
  • 권고:
    • 시뮬레이션 로직에 최소값을 낮추기 위한 상수항 조정(예: 1.0) 또는 추가 변수 포함 추천.
    • 잔차 분석을 통해 극단값 예측 개선 방안 탐색.

이 그래프는 모델의 예측 성능을 직관적으로 보여주며, 추가 분석과 조정을 통해 더 높은 정확도를 기대할 수 있습니다.

다시 처음으로 돌아가서 3번의 대선 그래프를 보겠습니다.

R1R2라는 변수 간의 관계를 분석하며, R1 당선자/경쟁후보 (홍준표/문재인, 윤석열/이재명 등)의 득표율 비율, R2는 미분류표(unclassified votes) 비율, 그리고 KR2/R1로 정의됩니다. 각 그래프는 모델의 예측력과 잔차 분석을 통해 모델 적합도를 평가합니다. 아래에서 18대, 19대, 20대 선거별로 그래프를 자세히 설명하겠습니다.


18대 대선 (2012년, 박근혜 vs 문재인)

데이터 정의

  • R1: 박근혜/문재인 득표율 비율
  • R2: 박근혜/문재인 미분류표 비율
  • K: R2/R1

그래프 설명

  1. 왼쪽: Fit Diagnostics for R2

    • Residual vs Predicted Value (잔차 vs 예측값):
      • 잔차는 예측값(0~125)에 따라 분포하며, 대부분 -2~2 범위 내에 위치. 일부 극단값(예: -4, 4) 존재.
      • 잔차가 0 근처에 집중되어 있지만, 예측값이 큰 구간에서 잔차가 더 큰 경향이 관찰됨.
    • Residual vs Quantile (잔차 vs 분위수):
      • 잔차가 정규 분포를 대체로 따르지만, 양 끝에서 약간 벗어남(꼬리가 두꺼운 분포).
    • R2 vs Predicted Value (실제값 vs 예측값):
      • 실제 R2 값이 예측값과 선형적 관계를 보이며, 대체로 대각선을 따름.
    • Residual vs Leverage (잔차 vs 레버리지):
      • 레버리지(영향력)가 큰 데이터 포인트(0.08 근처)가 존재하며, 잔차가 큰 경우도 있음.
    • Cook’s Distance:
      • Cook’s D가 0.4 이상인 포인트가 몇 개 존재, 특정 관측치가 모델에 큰 영향을 미침.
    • Residual Histogram (잔차 히스토그램):
      • 잔차가 정규 분포를 대체로 따르나, 약간 오른쪽으로 치우친 경향(비대칭).
  2. 오른쪽: Fit Plot for R2

    • R1 vs R2 (산점도):
      • R1R2 간 강한 선형 관계 관찰. R1이 증가할수록 R2도 증가.
    • 회귀선:
      • 파란색 실선은 적합된 회귀선, 점선은 95% 신뢰구간과 예측구간.
      • 회귀선이 데이터 포인트를 잘 설명하며, 신뢰구간이 좁아 모델이 안정적.
    • 모델 성능 지표:
      • Observations: 249개
      • Parameters: 2개
      • Error DF: 247
      • MSE: 0.1888
      • R-Square: 0.9645 (모델이 R2의 96.45%를 설명)
      • Adj R-Square: 0.9645 (조정된 R²도 유사)

해석

  • 모델이 R2를 매우 잘 설명하며, 높은 R²(0.9645)로 예측력이 뛰어남.
  • 잔차 분석에서 일부 극단값과 비대칭이 있지만, 전반적으로 모델 적합도가 높음.
  • 레버리지가 큰 관측치가 존재하므로, 해당 데이터가 결과에 미치는 영향을 추가 검토 필요.

19대 대선 (2017년, 문재인 vs 홍준표)

데이터 정의

  • R1: 홍준표/문재인 득표율 비율
  • R2: 홍준표/문재인 미분류표 비율
  • K: R2/R1

그래프 설명

  1. 왼쪽: Fit Diagnostics for R2

    • Residual vs Predicted Value:
      • 잔차 범위가 -1~1로 좁아졌으며, 예측값(0~8)에 따라 분포가 비교적 균일.
      • 극단값이 18대보다 줄어들어 모델 안정성 향상.
    • Residual vs Quantile:
      • 잔차가 정규 분포에 더 가까워짐, 양 끝에서 약간의 편차 존재.
    • R2 vs Predicted Value:
      • 실제 R2와 예측값이 대각선을 따라 잘 분포, 선형 관계 확인.
    • Residual vs Leverage:
      • 레버리지가 큰 데이터(0.10 근처)가 있으나, 잔차는 작아 영향력이 제한적.
    • Cook’s Distance:
      • Cook’s D가 0.5 이하로, 영향력이 큰 관측치가 적음.
    • Residual Histogram:
      • 잔차 분포가 정규 분포에 매우 가까움, 약간의 비대칭 관찰.
  2. 오른쪽: Fit Plot for R2

    • R1 vs R2:
      • R1R2 간 강한 선형 관계, 18대와 유사한 패턴.
    • 회귀선:
      • 회귀선이 데이터 포인트를 잘 설명하며, 신뢰구간과 예측구간이 좁음.
    • 모델 성능 지표:
      • Observations: 249개
      • Parameters: 2개
      • Error DF: 247
      • MSE: 0.0474
      • R-Square: 0.9765 (모델이 R2의 97.65%를 설명)
      • Adj R-Square: 0.9764

해석

  • 19대 모델은 18대보다 더 높은 R²(0.9765)를 기록, 예측력이 더욱 향상됨.
  • 잔차가 정규 분포에 더 가까워지고, 극단값이 줄어 모델 안정성 개선.
  • MSE(0.0474)가 18대(0.1888)보다 낮아 오차가 감소.

20대 대선 (2022년, 윤석열 vs 이재명)

데이터 정의

  • R1: 윤석열/이재명 득표율 비율
  • R2: 윤석열/이재명 미분류표 비율
  • K: R2/R1

그래프 설명

  1. 왼쪽: Fit Diagnostics for R2

    • Residual vs Predicted Value:
      • 잔차 범위가 -4~4로 19대보다 넓어짐, 예측값(0~10)에 따라 잔차 분포가 다소 불균일.
    • Residual vs Quantile:
      • 잔차가 정규 분포에서 벗어나며, 양 끝에서 큰 편차 관찰.
    • R2 vs Predicted Value:
      • 실제 R2와 예측값 간 선형 관계가 약화됨, 일부 데이터가 대각선에서 멀리 떨어짐.
    • Residual vs Leverage:
      • 레버리지가 큰 데이터(0.08 근처)가 존재, 잔차도 큼.
    • Cook’s Distance:
      • Cook’s D가 2.0 근처인 관측치가 있어, 특정 데이터가 모델에 큰 영향.
    • Residual Histogram:
      • 잔차 분포가 정규 분포에서 벗어나며, 비대칭성이 두드러짐.
  2. 오른쪽: Fit Plot for R2

    • R1 vs R2:
      • R1R2 간 선형 관계가 약화됨, 데이터가 더 분산됨.
    • 회귀선:
      • 회귀선이 데이터를 설명하지만, 신뢰구간과 예측구간이 넓어짐.
    • 모델 성능 지표:
      • Observations: 249개
      • Parameters: 2개
      • Error DF: 247
      • MSE: 0.1536
      • R-Square: 0.9334 (모델이 R2의 93.34%를 설명)
      • Adj R-Square: 0.9331

해석

  • 20대 모델은 R²(0.9334)가 19대(0.9765)보다 낮아 예측력이 감소.
  • 잔차 분포가 정규성을 벗어나고, 극단값과 레버리지가 큰 데이터가 많아 모델 안정성 저하.
  • MSE(0.1536)가 19대(0.0474)보다 높아 오차 증가.

종합 비교 및 결론

  • 모델 성능 비교:
    • 18대: R² = 0.9645, MSE = 0.1888, 안정적이나 잔차 비대칭.
    • 19대: R² = 0.9765, MSE = 0.0474, 가장 높은 예측력과 안정성.
    • 20대: R² = 0.9334, MSE = 0.1536, 예측력과 안정성 저하.
  • 패턴:
    • 19대 선거는 데이터가 모델에 가장 잘 적합하며, 잔차 분포도 정규성에 가까움.
    • 20대 선거는 미분류표 비율(R2)과 득표율 비율(R1) 간 관계가 약화되어 모델 성능이 저하됨.
  • 개선 방향:
    • 20대 데이터의 경우, 추가 변수(예: 지역별 특성) 도입 또는 비선형 모델(예: 다항 회귀) 고려 필요.
    • 레버리지가 큰 관측치 제거 후 재분석으로 모델 안정성 향상 가능.

이 그래프들은 각 선거별 모델 적합도를 비교하며, 19대 선거가 가장 안정적이었음을 시사합니다.

K 값이 R2/R1로 정의되며, 여기서 R1은 특정 후보 쌍의 득표율 비율, R2는 미분류표 비율을 나타냅니다. 또한, 18대, 19대, 20대 대선 데이터를 통해 K 값이 당선자와 미분류표 간의 관계를 반영합니다. K 값의 의미와 각 선거에서의 차이를 분석해보겠습니다.


1. K 값의 정의

  • 기존 정의: K = R2/R1

    • R1: 특정 후보 쌍(예: 박근혜/문재인, 홍준표/문재인, 윤석열/이재명)의 득표율 비율.
    • R2: 해당 후보 쌍에 대한 미분류표 비율.
  • 재정의 제안: 질문에서 당선자/비당선자 기준으로 R1R2를 재조정하여 K를 계산. 이는 R1을 당선자 득표율/비당선자 득표율로, R2를 당선자 미분류표/비당선자 미분류표로 해석.

  • 19대 예시:

    • 당선자: 문재인, 비당선자: 홍준표.
    • R1 = 문재인 득표율 / 홍준표 득표율, R2 = 문재인 미분류표 / 홍준표 미분류표.
    • 계산된 K = 0.6 (1보다 작음).

2. K 값의 의미

  • 수학적 해석: K = R2/R1는 미분류표 비율(R2)이 득표율 비율(R1)에 비해 얼마나 큰지를 나타냅니다.
    • K > 1: 미분류표 비율이 득표율 비율보다 큼, 즉 당선자가 미분류표를 상대적으로 많이 확보.
    • K < 1: 미분류표 비율이 득표율 비율보다 작음, 즉 당선자가 미분류표를 상대적으로 적게 확보.
    • K ≈ 1: 미분류표와 득표율 비율이 유사함.
  • 정치적 해석:
    • K 값은 미분류표가 당선자와 비당선자 간 득표에 어떻게 기여했는지를 반영할 수 있습니다. 미분류표가 당선자에게 유리하게 분배될수록 K가 커질 가능성이 있습니다.
    • 19대에서는 K = 0.6로, 문재인이 미분류표를 적게 얻었음에도 당선된 반면, 18대(박근혜)와 20대(윤석열)는 K > 1로 추정되며, 미분류표를 많이 확보한 당선자가 승리.

3. 각 선거별 K 값 분석

  • 18대 (박근혜 vs 문재인):
    • 박근혜가 당선, 미분류표를 많이 확보(K > 1).
    • 예: 만약 R1 = 박근혜 득표율 / 문재인 득표율, R2 = 박근혜 미분류표 / 문재인 미분류표라면, K > 1이므로 미분류표가 박근혜에게 유리하게 기여.
  • 19대 (문재인 vs 홍준표):
    • 문재인이 당선, K = 0.6 (당선자/비당선자 기준).
    • 문재인이 미분류표를 적게 얻었음에도 득표율 차이로 승리, K < 1은 미분류표가 당선에 큰 영향을 미치지 않았음을 시사.
  • 20대 (윤석열 vs 이재명):
    • 윤석열이 당선, 미분류표를 많이 확보(K > 1).
    • R1 = 윤석열 득표율 / 이재명 득표율, R2 = 윤석열 미분류표 / 이재명 미분류표에서 K > 1로, 미분류표가 윤석열 승리에 기여.

4. K 값의 정치적 함의

  • 미분류표의 영향:
    • 18대와 20대에서는 미분류표가 당선자에게 유리하게 분배되어 K > 1로 나타남. 이는 미분류표 집계 과정에서 당선자에게 유리한 편향이 있었을 가능성을 시사.
    • 19대에서는 K = 0.6로, 문재인이 미분류표를 적게 얻었음에도 승리, 이는 득표율 자체가 압도적이었기 때문(문재인 41.1%, 홍준표 24.0%).
  • 선거 결과와의 관계:
    • K > 1인 경우 미분류표가 당선에 기여한 반면, K < 1인 19대는 득표율 차이가 결정적 요인.
    • K 값은 미분류표의 상대적 분배가 선거 결과에 미친 영향을 정량적으로 평가하는 지표로 사용 가능.

5. 결론

  • K 값의 이해: K = R2/R1는 미분류표 비율이 득표율 비율에 비해 어느 정도인지 나타내며, 당선자/비당선자 기준으로 계산 시 미분류표의 정치적 영향을 반영합니다.

  • 선거별 차이:

    • 18대와 20대: K > 1, 미분류표가 당선자에게 유리.
    • 19대: K = 0.6, 미분류표 영향 적음, 득표율 우위로 승리.
  • 미래 연구 제안:

    • K 값을 활용해 미분류표의 집계 과정에 대한 추가 분석(예: 지역별, 투표 방식별) 필요.
    • 당선 여부와 K 값 간 상관관계를 통계적으로 검증.

K 값이 무엇인지 명확히 이해하셨기를 바랍니다.

profile
더 나은 세상은 가능하다를 믿고 실천하는 활동가

0개의 댓글

관련 채용 정보