내일배움캠프을 진행한지 벌써 3개월이나 되었다. 이 발표 이후에 마지막 심화프로젝트만 남게 되었다.
요근래 블로그에 TIL을 적지 못해서 내심 패배감을 느꼈다
그래도 프로젝트 진행한 것에 대해서 남겨두려고 한다
이번 프로젝트는 kaggle에서 인도의 520명을 대상으로한 음악앱 스포티파이의 취향이나 만족도 등을 조사한 설문 조사 데이터를 활용하여 분석을 진행하였다.
우리는 하나의 셀에 다중값이 존재할 수 있는 컬럼들을 전처리하는 것부터 데이터 EDA까지 약 3~4일의 시간을 가지고 앞단의 작업을 이어나갔고, 진행하던 중에 더 파고들 수 있는 점들을 찾아내기 시작했다. 그 결과 우리는 추가로 제시해준 유저 매출 데이터를 가지고 RFM기법과 클러스터링 모델을 사용하며 고객 군집화하는 방법도 사용하게 되었다. 이것을 토대로 공략할 수 있는 부분을 찾아 더 심화하여 분석하고 액션 플랜까지 도달했다.
** 발표 리허설 영상
발표 때 사용한 스크립트 내용
0장) 인사말
안녕하세요. 인도 스포티파이 설문 기반 구독 증가 방안 발표를 진행할 A01조 퍼스트펭귄 팀에 발표자 신인균입니다.
발표 순서는 개요와 데이터 EDA, RFM 분석과 클러스터링 모델을 적용한 고객 군집화로 요금제와 팟캐스트의 분석 결과, 솔루션 순으로 발표하겠습니다.1장) 개요
먼저 프로젝트 개요입니다.
7월 1일자 구글 설문이 진행된 인도 스포티파이 사용자 520명을 대상으로한 데이터를 바탕으로 서비스 사용자의 행태 및 취향을 분석하는 것입니다.
추가로 1월부터 6월까지의 매출 데이터를 활용하여 고객을 세분화하여 현재의 서비스 이용자를 분류하여 분석해 보았습니다.분석 목표는 무료 이용자의 구독 전환과 구독 중인 이용자의 이탈 방지를 위한 솔루션을 강구하는 것입니다.
2장) EDA
먼저 설문 데이터의 기초 통계를 확인했습니다. 7월 1일 기준으로 520명 중 구독 중인 사용자는 약 18%, 무료로 이용하는 사용자가 약 82%로 대략 8 : 2의 비율로 무료 이용자가 월등히 많았습니다.남녀 성비는 여자가 약 75%, 남자가 22%로 응답자의 과반수가 여성으로 이루어져 있었습니다.
또 무료, 구독 이용자 간의 뮤직과 팟캐스트의 선호 차이에서는 두 집단 간 모두 뮤직을 선호하는 것으로 확인했습니다.
뮤직과 팟캐스트도 대략 8 : 2의 비율로 이용자는 주로 음악을 듣기 위해 찾는다는 것을 알 수 있습니다.그리고 뮤직 서비스에 대한 무료 이용자와 구독 이용자 간의 만족도 차이를 보실 수 있습니다.
만족도는 1점부터 5점까지 높을수록 좋은 평가점수입니다.
무료 이용자의 경우는 3점, 4점이 많이 평가된 것으로 보이고, 구독 이용자는 3점, 2점, 4점 순으로 많이 응답한 것을 확인할 수 있습니다. 3, 4점이 많은 무료 이용자와 다르게 구독 이용자는 서비스에 만족하지 못하는 사람이 더 많은 것을 알 수 있었습니다.3장) RFM / Clustering
다음은 RFM 분석기법과 클러스터링 모델을 활용하여 심화 분석을 위한 고객 군집화입니다.
1월부터 6월까지의 고객 매출 데이터 중 최근 구독일, 6개월간 구독한 횟수 그리고 매월 구독료와 구독한 횟수를 곱한 이용자당 총매출을 활용해 RFM 기법을 사용하여 해당 변수들을 클러스터링 모델을 적용해서 최적의 파라미터인 3개의 군집으로 고객 집단을 설정하였습니다.3개의 집단을 다시 EDA 하여 집단 간의 차이가 유의미한지 데이터를 살펴보았습니다.
4장) 요금제 분석
우선 0, 1, 2로 구분된 3개의 군집 특성을 확인하기 위해 현재 구독 상태를 확인하였습니다.0번 그룹은 현재 모두 무료 이용자고, 1번 그룹도 마찬가지로 3명의 이용자를 제외한 인원이 모두 무료 이용자임을 알 수 있었습니다.
0번과 1번의 차이는 이전 6개월 안에 구독을 한 경험이 있는지에 대해서 차이가 나며 1번은 1개월에서 2개월까지 구독을 한 경험이 있는 이용자였습니다.2번 그룹은 현재 과반수가 구독을 유지하고 있으며, 구독을 취소한 이용자는 약 15%인 것으로 확인하였습니다.
또, 세 개의 그룹이 향후 어떤 요금제를 가장 선호하는지에 대한 설문에서 차이가 나는 것을 확인했습니다.
0번과 1번 그룹은 각각 약 42%, 34%로 저렴한 학생 플랜을 가장 선호하였습니다.
반면, 2번 그룹은 현재 구독 중이며 앞으로도 개인 플랜을 가장 선호하는 것을 알 수 있었습니다.학생 플랜을 선호하는 0번과 1번 그룹과 다르게 2번 그룹은 개인 요금제의 선호도가 가장 높은 것을 확인했습니다.
차이를 살펴보기 위해 그룹 간 응답자 연령 비율을 통해서 각 군집별 차이를 확인했고,
연령대 비율는 전반적으로 비슷했으나 2번 그룹이 12~20세 비율이 상대적으로 많았습니다.보통의 12~20세는 지불능력이 20세 이상인 이용자들보다 낮기 때문에
낮은 요금제를 선호해야 일반적이지만, 저희가 가진 데이터셋에서는
오히려 12~20세의 비율이 높은 2번군집이 개인요금제를 가장 많이 선호했고
2번 그룹의 무응답을 제외한 학생 응답자 18명 중 2명만 학생 요금제를 선택하였고 학생 요금제의 선호도가 굉장히 낮은 상반된 모습이였습니다.현재, 무료이용자들인 0번과 1번 군집은 1인당 지불금액이 적은 금액을 선호하고
2번인 구독자들은 개인요금제를 가장 선호하며 지불 금액에 대한 거부감이 없는 상태라고 볼 수 있습니다.5장) 요금제 솔루션부분
최종적으로 현재 요금제가 비싸게 느껴지는 이용자와 무료 이용자의 구독 전환을 위해서
3개월 단위의 요금제를 정가보다 저렴하게 판매하는 프로모션을 제안하기로 했습니다0번 군집은 구독경험이 없는 그룹이었고
1번 군집은 구독에서 이탈경험이 있는 이용자이며, 평균 1.3개월로 1~2개월정도 구독하고 이탈된 것으로 확인했습니다.따라서 0번, 1번 군집은 무료 이용자들이고, 2번 군집은 대부분이 프리미엄 구독자인걸로 보아
스포티파이의 "아하모먼트"는 구독 사용 2개월 이상으로 설정할 수 있으며, 3개월 요금제 설정의 충분한 근거가 된다고 판단했습니다
3개월 요금제의 가격은 개인플랜 두 달치 가격인 238루피로 설정하며, 월별로 환산하면 개인 지불금액이 학생플랜보다 약 20% 정도 높은 수준인 약 79 루피가 됩니다.저희는 0, 1번 군집에 대해 3개월 구독권 할인 프로모션을 진행해서
스포티파이에 저희가 설정한 아하모먼트를 2개월 이상의 구독을 경험시켜 최종적으로는 구독자 비율을 늘리는 방안을 고안했습니다.아하모먼트는 이용자가 /상품과 서비스의/ 진정한 가치를 느끼는/ 순간이나 과정으로/ 실제로 많은 이용자들이 플랫폼 자체 서비스나 알고리즘에는 만족하고 있어 이들이 플랫폼의 장점을 최대한 오래 경험하도록 하는것이 중요하다고 판단했습니다.
또한, 한번도 구독을 하지 않은 이용자의 경우에는 저렴한 가격을 선호하는 만큼 요금제 프로모션을 통해 새롭게 구독할 가능성이 높아질 것으로 기대하고 있습니다.
6장 ) 팟캐스트
스포티파이는 이전에 팟캐스트 활성화를 위해 1조원을 투자해 많은 유명인사를 모집했지만, 결론적으로 좋은 성과를 내지 못한 적이 있었습니다.
이 결과는 데이터에서도 알 수 있었습니다. 앞서 보여드린 EDA에서 팟캐스트를 선호하는 유저는 응답자 중 약 20% 였습니다.그리고 클러스터링을 통해 군집화한 3개의 그룹에서 팟캐스트에 대한 특별한 차이가 있었습니다.
우선, 차이점을 말씀 드리기 전에 모든 군집의 공통점이 하나 있었는데요. 만족도 트리맵에서 모든 군집이 팟캐스트에 대해 만족하고 있다는 것이었습니다.따라서 팟캐스트의 호스트나 콘텐츠에 대한 문제가 없다고 판단하였고, 실제로 팟캐스트를 이용하는 군집과 아닌 군집을 나누어 비교해 보았습니다.
첫 번째로 군집별 선호 콘텐츠 그래프를 보시면 세 개의 그룹이 팟캐스트 보다 전반적으로 뮤직을 선호하고 있기는 했지만,
제일 하단에 2번 그룹의 경우에는 뮤직과 팟캐스트의 차이가 다른 그룹보다는 현저히 적은 차이를 보였습니다.
2번 그룹의 경우, 현재 구독중이거나 이전에 구독한 이력이 많은 군집으로
구독자의 상당 부분이 팟캐스트를 애용한다고 해석할 수 있습니다.두 번째로 선호 팟캐스트 길이에서 0번과 1번 군집의 경우는 짧은 길이의 팟캐스트를 선호하는 반면,
2번 그룹은 긴 팟캐스트를 선호하고 있었습니다.마지막으로 장르 선호도는 0번과 1번 군집이 가장 선호하는 장르는 코미디 장르였고,
2번 그룹의 경우 건강/피트니스 장르를 가장 선호하고 있었습니다.7장) 팟캐스트 솔루션
따라서 결론은 0번과 1번 군집의 경우는 현재 팟캐스트에 관심이 없지만 그나마 쇼츠 코미디 콘텐츠에 관심을 가지고 있고
2번 그룹의 경우 팟캐스트의 애용자라고 볼 수 있으며 길이가 긴 건강/관련 콘텐츠에 관심이 있는 그룹으로 정의한 후 솔루션을 고안해 보았습니다.우선 0번과 1번 군집은 바로 프리미엄 구독으로 유도하기 보다는 팟캐스트에 대한 관심을 먼저 이끌어야 된다고 판단 했으며,
이들이 좋아하는 코미디 장르의 쇼츠 콘텐츠를 다양하게 만드는 것이 우선이라고 판단했습니다.2번 군집의 경우는 팟캐스트에 대한 소비가 긍정적이라고 판단되며, 현재 무료로 이용하고 있는 콘텐츠를 유료화할 경우,
구독 이탈 이용자들이 다시 프리미엄을 구독하게 될 것이라고 판단하였습니다.하지만 2번 그룹 구독자들은 가장 좋아하는 헬스/건강 콘텐츠를 바로 유료화하기에는 큰 불만이 있을 것이라고 생각해서
2번 그룹이 3순위로 선호했고 0, 1번 그룹이 가장 선호했던 코미디 콘텐츠를 우선 유료화하여 A/B 테스트를 먼저 시도해보는게 좋을 것 같습니다.코미디라는 하나의 장르 속에 길이가 긴 콘텐츠를 유료화하고 일부분을 잘라 무료 쇼츠로 공개하게 된다면,
2번 군집의 구독뿐만 아니라 쇼츠에 관심을 가졌던 0번과 1번 군집 또한 관심을 가진 이후에 좀 더 긴 코미디 콘텐츠를 청취하기 위해 구독 서비스를 이용할 가능성이 높아질 것이라 판단하고 있습니다.특히나 앞서 말씀드린 요금제와 함께 팟캐스트 솔루션이 같이 진행된다면 더 좋은 시너지를 보여줄 것으로 예상합니다.
8장) 한계점
마지막으로 저희의 한계점과 개선점입니다.먼저 한계점으로는
설문 표본 수가 520명으로 적어서 일반화하기에는 어려울 것 같았습니다.
또, 응답자 연령이 범위로 되어있어 학생 요금제를 사용하는 정확한 인원을 파악하기 어려워 디테일한 분석이 어려웠습니다.
마지막으로 매출데이터와 설문 문항에 현재 지불하고 있는 요금제에 대한 정보가 없어 아쉬웠습니다.개선점으로는 저희가 제안한 3개월 프로모션을 적용하였을 때의 예측 모델 또는 고객 이탈을 예측하는 것입니다.
그리고 분석한 그래프를 더 다양한 버전으로 개선하는 것입니다.뒷표지)
이상으로 발표 마칩니다.
감사합니다.
튜터님들의 피드백
- 데이터의 수가 520개로 적고, 범주형이라서 전처리 과정이 어려웠을텐데 고생했다.
- 대시보드를 스토리로 묶어 발표한 점 칭찬
- 클러스터링을 RFM과 함께한 점 칭찬
- 사후경험(고객의 이탈, 구독유지에 대한 내용)에 대해서 분석한 것이 좋았다.
- 아하모먼트를 2개월 이상으로 근거를 들어 설명한 점 칭찬
- 수치적 근거를 제시한 점 칭찬
- 대시보드 내에서 그래프의 색이 비슷하여 보기 헷갈린다.
- 태블로 특징 중 인터랙티브한 동작(클릭 혹은 필터, 범례 등 조작)을 활용하였으면 좋았겠다.
프로젝트 소감
나를 포함한 팀원 4명이서 프로젝트를 진행하는 동안 의견에 대해 다들 열정적이여서 좋았다.
분석 주제에서 EDA하며 전처리하는 과정에 모두가 참여하여 좋은 인사이트나 더 심층분석해볼 문제점들을 찾아 오는 것이 재미있었다.
팀원들과 소통하면서 프로젝트하는 능력이 더 향상되었다고 생각했다. 의견을 주고 받는 과정이 꽤나 논리적으로 이야기했었던 것 같다.
데이터 리터러시가 뛰어난 사람이 의견도 논리적으로 펼칠 수 있다고 생각했다.
개인이 아닌 팀으로 움직여 프로젝트를 진행하니 무엇이든 팀의 집단지성이 굉장한 힘을 가지고 있다고 다시 한번 느끼게 되었다.
비록 작은 데이터를 선택했지만, 그 속에서 경향, 패턴 등을 파악하여 악조건에서도 무언가 움직일 방향성을 제시할 수 있는 것이 데이터 분석의 힘이라고 느꼈다.
나는 데이터 분석이 무에서 유를 창조하기도 하고 유에서 유를 재창조한다고도 생각한다.
또, 개개인의 능력이 전혀 다른 결과를 창조하는 것, 이것이 데이터 분석의 매력이 아닐까 싶다.
좋은 사람들과 좋은 경험을 함께 할 수 있어서 행복했다.
*포기하지 않는 것도 체력이고 능력이다.