A/B 테스트

🌹Haeri Lee·2023년 2월 25일

[인프런] Growth Hacker

목록 보기

14/15

▫️ A/B 테스트란?

ㄴ 집단 간 대조 실험
ㄴ 통계적 가설 검정
ㄴ 변수 사이의 인과관계를 확인하기 위한 실험 방법론

▫️ A/B 테스트 설계

1) 가설: 실험을 통해 무엇을 확인하고 싶은지, 구체적으로 독립변수와 종속변수 식별 + 종속변수의 목표수준
2) 실험집단 / 통제집단: 실험군을 어떤 기준으로 구분하며, 어떤 비율로 할당할 것인지
3) 독립변수: 종속변수에 영향을 줄 것이라고 기대되는 변수 + 각 케이스별 variation에 대한 정의
4) 종속변수: 실험의 성과를 측정할 때 사용하는 변수 + 어떻게 측정할 것인지에 대한 operational definition
5) 통제변수: 실험 결과에 영향을 미칠 수 있기 때문에, 실험집단/ 통제집단 모두에서 동등한 조건을 가져야하는 변수
6) 종속변수의 현재 수준과 목표 수준: 현재 어떤 수치이고, 어느정도의 성과를 기대하는지
7) sample size: 가설 검증에 필요한 실험 참가자와 숫자(미리 정해야함)
8) 실험기간: sample size를 고려했을 때, 가설 검증을 위한 데이터를 수집하는데 필요한 기간

▫️ A/B 테스트 설계 시 고려사항

ㄴ 설계의 성패는 통제변수 관리와 실험집단/통제집단 샘플링

ㄴ 순차 테스트는 a/b테스트가 아니다

ㄴ 샘플링은 홀/짝 구분이 진리? no!!
-랜덤추출: 통제변수가 잘 관리된 상태에서의 무작위 추출
-실험 전,후로 a/a테스트를 진행하는 것도 좋은 방법

ㄴ 테스트 유형에 따른 분석방법 구분
-종속변수가 범주형(ex.클릭여부,가입여부) - 로지스틱 회귀, 카이제곱 검정
-종속변수가 이산형(ex.클릭횟수,결제금액) - T검증, 분산분석

▫️ A/B 테스트 분석

ㄴ 가설 검증하려면 어느 정도의 숫자가 필요한가?

ㄴ 효과를 어떻게 판단?
-기본적으로는 분포와 신뢰구간, 효과크기를 기준으로 판단

ㄴ통계적으로 유의미하다..는 말의 의미가 무러까?
ex) 95%신뢰수준에서 A의 클릭율이 B의 클릭율보다 유의미하게 높다?
-A의 클릭율이 B의 클릭율보다 높을 확률이 95%이다 (X)

ㄴ 통계학에서 가설을 검증하는 방식
-귀무가설: A와 B의 클릭율 차이가 없다.
-차이가 없는데, 이렇게 극단적인 값(검정통계량(T통계량, F통계량..))이 관찰될 확률이 5% 미만(기각역 P<0.05)이야! > 그럼 차이가 있는거네?!

ㄴ 신뢰구간
-모수가 어느 범위 안에 있는지를 확률적으로 보여주는 방법
-95% 신뢰구간의 개념

ㄴ 효과크기
만약 배너1은 구매전환율 10%, 배너2는 구매전환율 20%이고
이 실험이 99% 수준에서 통계적으로 유의미하다.
그런데.. 배너 1 상품의 Profit은 10,000원이고, 배너 2 상품의 Profit이 1,000원 이라면 이 실험의 가치는?

▫️ A/B 테스트 참고사항

ㄴ 대표적으로 하는 실수
-무가설
-통제변수 관리 실패
-단순 평균 비교
-엿보기 + 조기 중지
-Delayed conversion 무시
-a/b테스트의 결과가 비즈니스 목표와 align되지 않는 것

ㄴ 참고사항
-시간의 흐름에 따른 차이를 살펴봐야 함
-새로운 기능이 나오면, 새 기능을 일단 써보는 유저가 있어 전환율과 p-vale에 영향을 줌
-시간의 흐름에 따른 추이 변화, 혹은 특정 브라우저 버그 / 기능 오류 등 외부 요인이 없었는지 재차 확인 필요

ㄴ 결과가 언제까지 유효한가?
-잘 설계되어서 의미있는 결과가 나왔다 해도 '앞으로 계속 그 결과가 유효할 것이다'라고 보장할 수 없다.
-계절변화, 시장상황 변화, 사용자층 변화, 취향 변화 등 시간의 흐름에 따라 달라짐

🌹Haeri Lee

안녕하세요 공부한 내용을 기록하기 위해서 시작했습니다.

이전 포스트

그로스 조직

다음 포스트