[EDA Project] Cookie Cats AB TEST

주혜린·2023년 6월 30일
0

[EDA Project]

목록 보기
3/4
post-thumbnail

📁 데이터셋

  • kaggle의 'cookie cats' 게임의 AB test 데이터 셋을 이용하여 첫 게이트에 도달하는 시점은 30 라운드에서 40 라운드로 바꾸었을때 이용자의 재접속률에 어떤 영향을 주는지 분석했다.

<데이터셋 칼럼 설명>

[useid]: 유저 아이디
[version]: 첫 게이트에 도달하는 시점의 라운드수
[sum_gamerounds]: 몇번 게임을 플레이했는지 수
[retention_1]: 1일 후 게임 접속 여부
[retention_2]: 7일 후 게임 접속 여부

https://www.kaggle.com/datasets/mursideyarkin/mobile-games-ab-testing-cookie-cats

📈 전처리 및 분석 결과

[전처리]

  • 데이터셋에 결측지는 없었다.

  • version에 따른 sum_gamerounds의 박스플롯을 그려본 결과 유독 한 플레이어의 플레이수가 높은 것을 확인하였다.
    14일 동안의 플레이수인 점을 놓고 보면 유저가 직접 플레이 한것이 아닌 매크로와 같은 기술을 사용한 것으로 생각되어 해당 유저의 데이터는 삭제하였다.
BeforeAfter

[분석]

  • version에 따른 retention 그래프를 그려본 결과 아래와 같이 version과 재접속률은 크게 관계가 없는 것처럼 보였다.
  • 또한 아래의 박스플롯과 선그래프를 보면 대부분의 유저들의 플레이수가 20회 미만에 몰려 있는 것을 알 수 있다.
  • levene test: version에 따른 sum_gamerounds의 등분산성 테스트를 한 결과 p-value가 0.784로 등분산성을 만족했다.

  • t-test: version에 따른 sum_gamerounds의 평균을 비교한 결과 p-value가 0.949로 평균이 동일하다고 볼 수 있다.

  • version&retention_1 카이로 검정: p-value가 0.075로 연관성이 없는 것으로 나타났다.

  • version&retention_7 카이로 검정: p-value가 0.0016으로 연관성이 있는 것으로 나타났다.

  • 버전별 재접속 여부에 따른 총 플레이수 그래프를 그려본 결과 의외로 1일차에는 재접속 하지 않았지만 7일차에 재접속한 유저의 총 플레이수가 가장 낮을 것을 발견했다.

  • 버전별 재접속 여부에 따른 사용자 수 그래프를 보면 하루만에 게임을 삭제한 유저의 수가 가장 많은 것을 알 수 있다.

[Insight]

  1. 하나의 게이트(30개 혹은 40개 레벨로 구성된) 자체를 통과했을 때가 1 레벨만을 통과했을 때보다 유저가 흥미를 유지하는데 효과적이다.
    또한 게이트가 바뀌면 아이템, 배경 등도 바뀌기 때문에 한 게이트에 너무 오래 머무르게 되면 유저들이 흥미를 잃을 수 있다.

  2. retention_1, retention_7에 모두 접속한 유저의 비율이 version에 관계없이 낮은 것으로보아 유저의 흥미를 유지하기 위해 다른 조취가 필요한것 같다.

  3. 1일차, 7일차 모두 접속한 유저의 총 플레이수가 눈에 띄게 높은 점을 통해 회사는 한달 동안 이어지는 출석 이벤트를 진행하는 것도 좋을 것 같다.

  4. 1일차에는 접속했지만 7일차에는 접속하지 않은 유저가 총 유저수도 2번째로 많고, 총 플레이수도 2번째로 높기 때문에 해당 유저들이 게임을 이어갈 수 있도록 하는 것이 중요하다. 따라서 해당 유저들을 잡기 위해서는 첫 접속후 일주일 동안 진행되는 이벤트를 하는 것이 필요해 보인다.

📍 한계점 및 개선방향

  • 14일차 재접속 여부에 관한 데이터도 있었다면 더 다양한 분석이 가능했을 것 같아서 아쉬웠다.
profile
💻🐜💡

0개의 댓글