COMENTO 직무 부트캠프 <SQL 입문부터 활용까지 - 데이터 분석 보고서 작성과 대시보드 개발> 수강생 자격으로 제공받은 Redash 프로그램을 사용했습니다.
NorthWind 회사의 현황을 DB 내 데이터를 이용해 분석하고 이를 통해 회사의 Growth를 위한 지표를 추출해낼 수 있다. 가장 대표적인 예시로 여러 커뮤니티, SNS에 광고를 게시했을 때 커뮤니티/SNS 별로 CTR(Click-Through-Rate, 클릭률)이 어떻게 되는지 데이터를 분석하여 온라인 광고 전략을 세울 수 있다.
좋은 분석은 좋은 질문으로부터 시작된다. 목표로 하는 Part의 Growth를 위해 Data를 살펴보며 가설을 설정할 줄부터 알아야할 것이다. 가설이라는 질문을 막대한 데이터 베이스에 던진 뒤, 자신의 데이터분석 능력으로 그 가설을 해결해나가며 인사이트를 얻을 수 있을 것이다. 적절한 가설 설정 및 검증의 과정은 다음의 순서를 따른다.
- 가설 수립
- 가설 검증을 위한 지표 설정
- 지표 측정 및 분석
- 분석 결과 및 결론 (인사이트 도출)
지난 게시글에 이어서 NorthWind 데이터를 가지고 가설 설정 및 검증의 과정을 연습해보려고 한다. 현재 NorthWind DB는 2006년 1~2분기 데이터만 보유하고 있다. 따라서 이 데이터를 이용해서 3,4분기의 매출 실적을 위한 전략 수립을 목표로 분석을 진행한다. 먼저 Part Target을 Product 쪽으로 잡아봤다. 회사의 상품 관련 데이터를 살펴보며 어떤 인사이트를 얻을 수 있을 지 확인해보려고 했다.
먼저 회사 1-2분기 총 매출에서 각 카테고리 별로 비중이 어떻게 되는 지 확인해보았다.
- Beverages category의 매출 비중은 56%를 차지하며 2순위 카테고리와도 50% 가까이 차이날 정도로 매출에 큰 비중을 차지하고 있다.
3-4분기 매출 실적 상승을 위해서 Beverages 상품들이 어떻게 하면 더 잘 팔릴 수 있을 지에 대한 방향성이 필요할 것이다. 따라서 Beverages categroy에 대한 좀 더 세부적인 분석이 필요할 것이다.
"과연 Berverages 상품이 2006년 모든 분기에서 매출 비중이 가장 높을 것인가?"
가설이 기각되지 않는다면 Beverages 상품이 통상적으로 매출에서 가장 큰 비중을 차지하는 카테고리일 것이다.
만약 가설이 기각된다면, Beverages 상품이 특정 분기에만 잘 팔렸다는 걸 반증하므로 특정 분기에 대한 세부적인 분석이 필요할 것이다.
먼저 특정 분기의 영향력을 평가하기 위해 분기별 총 매출을 평가해야 할 것이다. 만약 특정 분기가 전체적으로 매출이 크게 감소된 분기라면 카테고리 별 영향이 아닌 전체 카테고리에 영향을 준 외부적인 요인이 있었기 때문에 세부적인 분석이 의미가 없을 수 있다.
둘째로 분기별 카테고리 별 매출 비중을 확인해야 할 것이다. 총매출에서 Outlier 분기가 없다면 카테고리 별로 분기별 매출 비중을 확인하는 것으로 가설 검증이 문제 없이 가능하다.
1분기 | 2분기 | 총매출 | |
---|---|---|---|
전체 매출 (단위 : $) | 38,686.75$ | 29,450.25$ | 68137.00$ |
총 매출 대비 분기 별 매출 비율 | 56.8% | 43.2% | - |
두 분기 모두 분석 대상으로 삼기에 이상이 없다는 걸 확인했다.
- 분기 별로 모두 Beverages가 가장 큰 비중을 차지한다는 걸 확인했다.
- 그러나 1분기에 비해 2분기에는 총 매출에서 차지하는 비율이 줄어들었다.
가설이 기각되지 않았지만 1분기와 2분기에 어떤 차이가 있길래 이렇게 분포가 다르게 나타나는지에 대한 궁금증이 생겼다. 따라서 1분기와 2분기에 어떤 요인이 작용해 분포 상이도에 영향을 주었는지 Beverages 상품들에 대한 세부적인 분석을 해보려고 한다.
또한 1분기 Order와 2분기 Order Data를 뜯어보며 고객의 상품별 니즈가 지표 변화에 영향을 주었는지 체크도 해보려고 한다.