[리뷰] Twyman 법칙과 분석에서의 다양한 실수들

juyeon·2024년 6월 4일
0

데이터 분석

목록 보기
8/13

데이터 블로그 챌린지: 데블챌 2기 8일차

벌써 매일 한 편의 글을 읽고 정리한지 일주일이 넘었다. 오늘은 '데이터 과학자 원칙' 저자 중 한 분인 김진환님의 글을 읽으며 데이터 분석 결과물을 바라보는 시각에 대해 알아보았다.

요약

Twyman 법칙

Twyman 이란 분은 다음과 같은 명언을 남겼다.

흥미로워 보이거나 조금 달라보이는 통계치가 있다면, 아마 너의 실수일 것이다.

처음 데이터 분석을 공부하는 사람은 '흥미롭고 새로운 발견'을 꿈꾸지만, 사실 매번 데이터 분석이 성공적인 결과를 낳는 것은 아니다. 심지어 놀라운 인사이트를 얻어도, 사실 잘못된 결론일 가능성이 높다.

잘못된 결론을 도출하는 실수들

그럼 잘못된 분석 결과를 도출하고 실험 결과를 신뢰하지 못하게 만드는 원인은 무엇이 있을까?

  • 잘못된 데이터 설계
    특히 설문조사로 데이터 수집 시, 선택지가 모든 표본을 포괄하지 못할 경우 비정상적인 결과가 나올 수 있다.

  • 분석 결과를 이해하지 못했을 때
    괴혈병의 치료제는 비타민이지만, 가열하면 비타민은 사라진다. 마찬가지로 데이터 분석으로 얻은 결과를 제대로 이해하지 못하고 잘못된 의사결정을 하게 되면 어떻게 될까?

  • 영향은 있지만 그 정도까진 아닌 경우
    2006년, 구글이 검색 결과를 10개에서 20개로 늘렸을 때, 오히려 매출이 20%나 감소했다. 한 페이지에 더 많은 결과를 보여줌으로 발생하는 매출 증가 대비 화면 로딩 시간 증가에 따른 매출 감소가 더 큰 영향을 끼쳤기 때문이다.
    즉 실제로 데이터 분석 결과를 서비스에 활용할 때 수많은 요소들과 조합되고, 원하는 효과를 얻지 못할 수 있다.

  • 치료 의향 분석(Intention to Treat, ITT)
    약의 효과를 위해 비교군을 설정하여 실험을 진행했는데, 도중에 약의 부작용으로 인해 일부 피험자가 비교군의 약으로 변경하면 어떻게 비교 분석을 해야할까?
    이처럼 처음 실험 설계가 실험 도중에 많은 변수와 상황에 의해 변화한다면, 의도대로 실험의 방향이 흘러가지 못하게 될 것이다.

  • 이외에도 생존자 편향, 잘못된 표집, 심슨의 역설 등 다양한 통계적인 오류들이 존재할 수 있다.

인사이트

최근 읽은 '새빨간 거짓말, 통계'에서도 다양한 통계적인 오류가 등장했다. 데이터 분석의 결과가 항상 장미빛일 수는 없고, 설령 아주 유의미하고 놀라운 결과가 도출되었더라도 그 결과가 어떠한 실수나 오류에 의해 잘못된 건 아닌지 살펴보아야 한다는 결론을 다시금 되새길 수 있었다.
이를 위해서는 역시 통계, 분석, 그리고 도메인 등 다방면으로 분석 결과의 신뢰를 의심하고 살펴볼 수 있는 역량을 키워나가야겠다.

profile
내 인생의 주연

0개의 댓글