심슨 파라독스 Simpson Paradox

도갱도갱·2021년 12월 2일
0

데이터 분석

목록 보기
1/1
post-thumbnail

심슨 파라독스 Simpson Paradox

간단하게 정리하자면, 같은 데이터를 가지고도 분석 방법에 따라 해석이 달라질 수 있는 경우 혹은 현상을 의미한다.
데이터 분석을 통해 의미있는 결과를 도출하는 것도 중요하지만, 하나의 정답만을 가정하기 보다는 다양한 관점과 가능성을 열어두는 것 또한 중요한 것 같다.

[참고] https://statkclee.github.io/statistics/stat-simpson.html
심슨 파라독스는 영국의 통계학자 에드워드 심슨이 정리한 역설로,
전반적인 추세가 경향성이 존재하는 것으로 보이지만,
그룹으로 나눠서 개별적으로 보게 되면 경향성이 사라지거나 해석이 반대로 되는 경우를 이른다.

중요한 변수(lurking variable)가 빠져서 주로 이런 역설이 발생한다.
심슨의 역설은 확률의 역사에서 중요한 주제 중의 하나로 자리를 잡고 있다.

a1/A1 > b1/B1 이고 a2/A2 > b2/B2 이라고 반드시
a1+a2/(A1+A2) > (b1+b2)/(B1+B2) 인 것은 아니다.
즉, “각 부분에 대한 평균이 크다고 해서 전체에 대한 평균까지 크지는 않다”는 의미이다.

0개의 댓글