대륙별로 요소들의 평균 그래프를 그려보았다.
이때 Africa와 Europe이 가장 큰 상반된 결과를 보인 항목은 [child_mort, Income, total_fer, gdpp] 였으며 어느정도 예상 가능했던 결과였다.
[label 0]![]() | [label 1]![]() |
---|
EDA시에 Europe와 Africa가 가장 극명한 차이를 보여줬던 항목인 [child_mort, Income, total_fer, gdpp]의 바이올린 그래프를 그려보았다.
실제로 아래의 label 1에 속한 국가들을 보면 대부분 선진국으로 알려진 국가들임을 알 수 있다. 특히 50% 이상이 유럽 국가인 점이 그렇다.
하지만 Asia 국가들 중 GDP가 높은 편에 속하는 한국이 label 1에 빠져 있는 것에 의문을 갖고 "Japan", "Kuwait", "Qatar"와 비교해 보았다.
먼저 "Japan"와 비교해보았을때 크게 차이가 나는 항목이 수출, 수입, gdpp였다. 이는 스케일링 과정을 거치지 않아서 상대적으로 데이터 값의 크기가 큰 gdpp의 영향을 받은 것으로 보인다.
또한 "Kuwait", "Qatar"와 비교해보았을 때고 스케일링 과정을 거치지 않고 군집화를 진행했기 때문에 상대적으로 데이터 값의 크기가 큰 income의 영향을 받은 결과인것 같다.
스케일링을 진행한 후에 분석을 했더라면 더 정확한 결과를 얻을 수 있었을 것 같아 개선해야할 부분이라고 생각했다.