💻 프로젝트 소개
- 도매상 고객들의 품목별 연간 지출액을 담은 데이터 셋을 이용하여 EDA와 군집화를 해본 후 회사의 매출을 올리기 위한 전략을 세운다.
[데이터 셋 출처] https://archive.ics.uci.edu/dataset/292/wholesale+customers
📁 데이터 셋
[구성]
- Channel: 고객 채널 - 호텔/레스토랑/카페(1) 또는 소매(2) 채널
- Region: Lisnon(1), Oporto(2) 또는 기타(3) 지역
- FRESH: 신선 제품에 대한 연간 지출액
- Milk: 우유 제품에 대한 연간 지출액
- Grocery: 식료품 제품에 대한 연간 지출액
냉동: 냉동 제품에 대한 연간 지출액
- DETERGENTS_PAPER: 세제 및 종이 제품에 대한 연간 지출액
- Delicassen: 델리류 제품에 대한 연간 지출액
📖 EDA
- 가장 먼저 데이터 셋에 결측치가 있는지 확인해본 결과 결측치가 있는 칼럼은 없었다.

- 채널별 지역의 분포 그래프를 그려보면 두 채널 모두 기타 지역의 수가 가장 많았다.

- 아래의 채널에 따른 품목별 총 매출액과 채널에 따른 품목별 평균 매출액 그래프를 보면,
Channel(1)에 해당하는 호텔/레스토랑/카페는 신선식품 매출이 가장 높았고, 세제 및 종이 매출이 가장 낮았다.
Channel(2)에 해당하는 소매에서는 식료품 매출이 가장 높았고, 냉동식품 매출이 가장 낮았다.
[채널에 따른 품목별 총 매출액] | [채널에 따른 품목별 평균 매출액] |
---|
- 지역에 따른 품목별 총 매출액과 지역에 따른 품목별 평균 매출액 그래프를 그려보았을 때,
Region(1)인 Lisnon, Region(2)인 Oporto, Region(3)인 기타 지역 모두 품목별 매출액 순위가 같은 것을 확인할 수 있었다.
[지역에 따른 품목별 총 매출액] | [지역에 따른 품목별 평균 매출액] |
---|
- 범주형 요소인 Channel, Region을 제외한 후 상관관계 히트맵을 그려보았다.
의외로 식품과 세제 및 종이류 품목의 상관관계가 높게 나타났고,
식료품과 유제품 품목의 상관관계도 높게 나타난 것을 확인 할 수 있다.
또한 식료품과 신선 제품의 상관계수가 0에 가까운 것으로 보아 두 품목은 서로 상관이 거의 없는 것으로 보였다.

- 채널을 기준으로 산점도를 그리면 아래와 같다.

- 지역을 기준으로 산점도를 그리면 아래와 같다.

🔨 DBSCAN
- 클러스터링 시에 상관관계가 낮거나 관계가 약한 두개의 특징을 사용하는 것이 서로 다른 보완적인 정보를 포착하여 보다 의미 있고 뚜렸한 클러스터를 만들 수 있다.
따라서 위의 상관관계 히트맵에서 가장 상관관계가 낮은 "Fresh"와 "Grocery" 요소를 이용하여 DBSCAN을 진행했다.

-> 그 결과 인덱스는 총 4개로 나뉘었으며, 데이터 셋의 약 90% 정도에 해당하는 값이 cluster index 0에 속해있었다.
- 인덱스에 따른 품목별 평균을 구했을때 아래와 같았다.
또한 인덱스별로 차지하고 있는 비율은 [-1]: 5%, [0]: 90%, [1]: 2%, [2]: 0.7% 이었다.

- 인덱스에 따른 품목별 그래프를 그려보면 아래와 같았다.
이상치에 속하는 [Label -1]을 보면 전체에 5% 밖에 없지만 대부분의 품목에서 높은 평균 매출을 보여주고 있다.
또한 전체 데이터 셋의 약 90%인 [Laebl 0]을 보면 평균 1만보다 적은 매출을 보이고 있다.
[Label 1]은 2%의 비율을 차지하고 있으며 특이하게 Fresh 품목에서 가장 높은 평균 매출을 보이고 있다.
[Label 2]은 Grocery 품목에서 가장 높은 평균 매출을 보이고 있으나 0.7% 비율로 매우 적은 수가 존재했다.

💡 Insight
-
Label -1인 이상치 고객들의 수는 전체의 5%로 매우 적으나 품목별 평균 매출이 높게 나타나고 있다.
따라서 해당 이상치 고객들을 잡기 위해서 해당 그룹을 VIP로 분류하여 관리하는 것도 좋은 방법인것 같다.
-
하지만 가장 신경을 써야하는거는 전체의 90%인 Label 0의 고객들이다.
평균 매출액으로 보면 모든 품목의 매출액이 1만 밑에 존재하지만 수가 많다보니 전체 매출액의 대부분을 이 그룹이 책임지고 있다.
데이터 셋의 약 67% 고객이 호텔/레스토랑/카페이기 때문에 해당 고객들에게 할인쿠폰 발행이나 무료 배송과 같은 혜택을 주어 더 자주 이용할 수 있도록 하면 매출을 올리는데 도움이 될 것 같다.
또한 호텔/레스토랑/카페의 매출액 중 신선제품이 가장 높기 때문에 신선 제품의 퀄리티를 높게 유지하는 것도 필요해보인다.
훌륭한 글이네요. 감사합니다.