데이터 활용 프로세스
(겉으로 드러난 현상) → 목적과 문제를 정의 → 지표 결정 → 현재 상태 파악 → 평가 → 원인 분석 → 해결방안 모색
데이터를 통한 현황 파악과 평가가 최종 목표는 아니다. 사람들이 궁금해하는 건 원인도!!!
원인 후보를 이끌어 내는 방법과 지표를 특정하는 방식
원인 후보를 열거한다 → 지표를 결정한다 → 관련성을 확인한다
문제에 대한 원인을 몇 가지 추측해보았지만, 이들을 직접적으로 나타낼 수 있는 데이터가 없는경우
1. 유사한 데이터에는 어떤 것이 있는지 생각해본다.
2. 지금 바로 수집을 시작한다(시간 여유 있고, 본질적인 데이터가 필요하다면)
3. 정량적이 아닌, 정성적인 정보로 대응한다(설문조사 및 청취자료 등)
4. 포기한다(본인의 가정을 통해 보완)
문제와 원인(두 지표 사이), 관련성을 확인하는 방법
- 단, 문제와 결과를 나타낼 지표가 정해져있고 데이터 수집 완료된 상태여야한다.
- 시각화 : 어느 부분에 초점을 두어야할지는 목적과 배경에 따라 다르다.
- 예시) 전체적인 경향을 파악, 그룹화한다, 벗어나 있는 값에 주목한다, 변화점을 찾는다.
- 통계지표를 확인한다. (상관계수)
- 관련없어 보이는 상관계수도 사분면으로 나누어 각각의 특징을 살펴볼 수 있다.
반드시 필요한 사고과정
주의사항
1. 직접적인 관계인지 간접적인 관계인지 파악해야한다. 데이터를 보기 전에 다른 가능성이 있는지 먼저 생각해봐야한다. 예를 들어 홈페이지 업데이터 빈도와 방문객 수의 상관관계가 있어도 , 당시 유명 블로거가 올려서 간접적으로 방문자 수가 증가했을 수 있다.
- 물론 생각한대도 모든 사실을 알 수는 없지만 ‘데이터 중심 사고’에 비하면 차이는 매우 크다.
- 원인은 한가지가 아니라 복잡할 수도 있다.
- 선형이 아닌 관계도 있다. 그렇다면 상관계수는 크지 않으니 시각화 해본다.
- 상관관계는 인과관계를 나타내는 것이 아니다. 따라서 ‘해석’을 잘못하면 본래의 인과관계와 정반대 결론을 낼 수 있다.
‘원인’의 구조는 단순하게만 볼 수 없다.
깊게 파고들지 않고 접속자 수가 감소했다는 것을 원인으로 고정해버린다면, ‘가격 할인’, ‘가게 이벤트 진행’ 등 방법론을 제안하게 되고, ‘방법맨’이 되어버린다. 억지로 짜낸 아이디어와 ‘방문객 수 감소’ 사이에는 큰 간극이 있기 때문이다. 원인이 명확히 규명된 후 수립하는 대책이 필요하다.
-> 그렇다면 얼마나 왜를 반복하면 될까??????
“해결 방안”을 고민하는 것은 마지막 단계이다.
계산과 분석을 해서 나온 결과물은 ‘결과’이며 그 결과가 목적에 대해 어떤 의미가 있는지 설명하는 것이 ‘결론’이다. 표현방식이 중요!!
예시) 부동산 관련 주제에서 평균 대신 ‘시세’로 표준편차와 분산을 ‘선택의 폭’이라 바꾼다.
‘논리적 사고’ : 문제를 구조화하고 정리하면서 생각하는 것
이렇게 하면 단순히 떠오른 것 차례차례 나열하는 식의 접근법에 비해 범위나 논리성 면에서 차이가 난다. 그리고 왜 이 데이터를 사용해서 분석했는가 질문에 대해 논리적 답변도 가능하다.
논리적 사고를 습득하는 방법
짝짓기 : 먼저 생각한 아이디어를 통해 알수 있는 것들을 늘어놓고, 이에 대응하거나 반대되는 아이디어에 대해 생각해보기
자기부정 : 자신이 떠올린 아이디어를 일부로 부정해서 다른 아이디어를 강제로 도출한다.
예시)
데이터 문해력이란 ‘데이터에서 무언가를 읽어내는 능력’이 아니라 ‘스스로 정답에 대해 고민하고 데이터를 무기 삼아 합리적으로 논할 수 있는 능력’이다. 스스로 정답에 대해 고민하고, 이를 합리적으로 논할 수 있다. 데이터는 어디까지나 도구에 불과하다.
이 책을 읽고 지금까지 데이터를 보고 문제를 해결하려했던 자세를 반성했다. 데이터로 현황을 파악하고 급급하게 해결방안을 찾으려했다. 원인이 무엇인지 먼저 왜? 라는 질문으로 파고 들어가서 하나의 해결방안을 찾으면 됐을 것이다! 논리적인 사고를 키우기 위해서는 여러 질문에 대해 구조적으로 해결방안을 세우는 연습을 해야할 것이다. 또한, 결과를 그대로 보이는 것이 아닌, 도메인에 따라 다르게 결론을 짓는 연습도 필요하다.