지난번 데이터 문해력 책을 읽으면서 문제 정의와 가설 설정의 중요성을 되새겼다. 이와 관련하여 두가지 글을 읽어보았다. 문제 정의와 가설 설정이 데이터 분석의 시작이라는데, 어떻게 해야 '잘' 정의하는걸까?
좋은 문제 정의는 읽을 때 이해하기 쉬워야 한다. 간단 명료하고, 추상적이지 않아야 하며, 명확해야 한다.
추상적인 단어로 문제를 정의하면 당연히 단어에 대한 해석이 갈리게 된다. "일어날 때"는 언제이며, "정신적으로 깨는"건 뭘 의미하는걸까?
단어 몇개만 의미를 명확히 해도 전체 문장이 더 명료해진다.
추상적인 표현과 긴 문장, 그리고 불필요한 문구는 지양해야 한다. 본질을 제외한 부분은 덜어내어 명료하게 정의하자.
보고서의 결론으로 쓸만한 가설을 세우게 된다면?!
데이터 분석은 '질문'에 대해 '답'을 구하는 것이다.
그런데 그 답, 즉 결론을 잠정적으로 정해놓고 질문을 던지면 어떻게 될까?
잠정적 결론에 알맞는 데이터를 찾느라 많은 시간을 허비하게 될 것이다. 원하는 데이터를 찾아 분석해도, 그 다음에 어떤 데이터를 봐야할지 또 헤매게 된다.
가설은 질문을 던지며 꼬리에 꼬리를 무는 과정이다
먼저 산업에 대한 이해, 즉 도메인 지식을 바탕으로 질문을 던져야 한다. 질문을 바탕으로 데이터를 찾고 분석하면, 그 다음 질문을 던지면 된다. 그렇게 질문에 질문을 거듭하는 것이다.
분석을 하는 본인에게도, 그리고 분석 과정을 함께하고 결과를 공유받을 동료들을 위해서라도 명료하고 좋은 문제 정의와 가설 설정은 중요하다고 생각한다.
데이터 분석 프로젝트를 할 때 가장 어려운게 바로 문제 정의와 가설 설정이었다. 데이터야 이리저리 분석하기 나름이라지만, 어떤 '기준'을 잡느냐에 따라 분석의 방향이 완전히 달라지기 때문이다. 여전히 어려운 단계이지만, 질문을 던지면서 더 좋은 문제, 그리고 가설을 세울 수 있도록 노력해보자.