PART 9에서는 어떻게 그럴듯하게 보이는지에 대한 예시들이 나와있고, PART 10에서는 앞서의 수많은 통계의 속임수를 피하는 다섯가지 방법이 간략히 서술되어 있다.
186쪽
워싱턴시에서 통근수당이 붙는 급료를 받는 임시 가정부 중에서 4.9%가 주당 18달러의 임금을 받았다고 한다. 그런데 알고 보았더니 이 백분율은 41명의 가정부 중 단 두 명의 경우에 불과했다.
이 구절에서 의문이 들었다. 엄연히 41명중 2명이니까 4.9%가 틀린건 아닌데, 왜 이게 나쁜걸까? 41명중 2명이나, 4.9% 나 작은 수이긴 매한가지니까 이해의 정도가 비슷한게 아닐까?
단지 표본수가 41명으로 너무 작아서? 그럼 41명이 아닌 81명, 91명이면 백분율로 나타내도 괜찮은걸까? 100명보다 작은 표본수는 무조건 백분율이 금지되나?
199쪽, 물가지수
예컨대 작년에는 우유 한 병에 50원, 빵 하나에 20원 하던 것이 금년에는 우유가 25원으로 내렸고, 빵은 40원으로 올랐다 하자.
…
작년을 기준으로 우유와 빵의 값을 100이라 하자. 그것이 금년에는 우유가 반(50%)이 되고 빵이 되려 2배(200%)가 되었으니, 50과 200의 평균은 125이므로 결국 물가는 25% 상승한 것이 된다.
예시의 물가상승 계산법을 금년을 기준으로 하면 되려 물가가 내려간 셈이 되고, 이를 기하평균으로 계산하면 물가는 같은 것으로 나온다.
이 구절이 이 책에서 가장 놀라운 부분이었다. 물가상승률 계산을 한번도 생각해본적이 없었는데, 이렇게 기준이 무엇이냐에 따라서 달라진다는게 매우 놀라웠다. 정말 어떻게 범위를 잡고, 기준을 무엇으로 하며, 어떤 의도를 가지냐에 따라 완전히 상반된 결과가 나온다는 것이 통계의 매력인걸까?
PART 10에서는 통계의 속임수를 피하는 다섯가지 열쇠를 제시하고 있다. 사실 앞서의 예시들을 요약한 셈인데, 결국 ‘숫자’ 이면의 것을 면밀히 살펴보는게 정답인 듯 하다.
1.누가 발표했는가? 출처를 캐 봐야 한다
2.어떤 방법으로 알게 되었는지 조사 방법에 주의해야 한다.
3.빠진 데이터는 없는지 숨겨진 자료를 찾아 보아야 한다.
4.내용이 뒤바뀐 것은 아닐지 쟁점 바꿔치기에 주의해야 한다.
5.상식적으로 말이 되는 이야기인가 살펴 보고 조사해라
책장을 덮고 나니 지난 10년간 심리학계에 찾아온 재현성 위기가 떠올랐다.
많은 심리학 연구들이 재현되지 않는다는 논문이 발표되고, 많은 원인과 해결책이 거론되었다. 본래 연구는 먼저 가설을 설정하고, 그에 따른 방법론과 설정대로 표본을 가지고 분석을 해야한다. 그런데 만약 데이터 분석 후 결과가 무의미하면, 속임수를 써서 좋은 결과를 보고하는 경우가 있다. 샘플 수를 늘려서 p-value를 낮추거나 유의미한 결과가 나올 때까지 돌려보는 p-hacking, 분석 결과에 맞추어 가설을 변경하는 harking, 가설에 맞는 데이터만 선택하고 반대되는 데이터는 무시하는 체리피킹 등의 속임수로 인해 재현성에 문제가 생긴 것이다.
데이터 분석을 할 때도 이와 비슷한 유혹을 마주하게 된다. 재현성 위기에서의 harking 개념처럼, 프로젝트를 하면서 가설과 다른 결과를 마주하게 되고, 가설을 더욱 ‘그럴듯’하게 수정하고픈 유혹을 마주치곤 했다. 아마 데이터 분석가가 되면 더 많은 유혹이 있을 것이다. 이 책에 많은 예시가 나오지만, 아마 앞으로 데이터 분석을 하면서 더 많은 속임수와 함정들을 마주치게 될 것 이다. 그때마다 나는 통계의 속임수를 피하는 다섯가지 열쇠를 잘 찾을 수 있을까?
결국 통계가 ‘속임수’ 이자 ‘함정’이 되는 이유는 읽는 이에게 ‘그럴듯’ 하게 보이고자 하는 의도를 담고 있기 때문이라고 생각한다. 앞으로 내가 원하는 의도를 정확히 숫자와 그래프에 담고, 타인의 속임수에 넘어가지 않는 데이터 분석가가 되기 위해서 부지런히 공부하고 또 연습해야겠다.