가설 검정
- 새로운 연구를 위해 새로운 가설을 수립한다.
- 실험을 통해 결과 데이터를 수집한다.
- 수집한 데이터를 통해 입증을 해야 한다.
연구 절차
기존 가설 -> 기존 가설의 반하는 증거 확인 -> 가설 수립 -> 데이터 수집 -> 가설 검정-> 채택
- 가설이 충족하지 않은 경우 가설을 업데이트 해야 한다.
모집단과 표본
- 모집단 : 우리가 알고 싶은 전체 데이터
- 표본 : 그 대상의 일부 데이터
단계
- 표본을 통해 모집단에 대한 가설 수립
- 이 검정이 모집단 에서도 가설이 성립 하는지 확인 해야한다.
- 어떤 가설에 대해서는 분포를 알아야 한다.
비즈니스 이해 단계
- 비즈니스 문제로 부터 관심사 (Y) 를 도출한다
- Y에 영향을 주는 요인 (X) 들을 뽑아서
- 초기 가설을 수립해야 한다.
고객 이탈 여부 에 영향을 주는 요인은
- 고객의 가입기간 -> 이탈여부
- 성별 -> 이탈여부
귀무가설(H0) <-> 대립가설(H1)
통계적 검정
- 표본으로부터 대립가설을 확인하고 , 모집단에서도 맞을 것이라 주장
대립가설 : 매장지역에 따라 수요량의 차이가 있다
귀무가설 : 매장 지역에 따라 수요량의 차이가 없다.
분포의 기준
- 분포 + 판단 기준이 필요하다.
- 차이 값이 A 로 부터 p-value 를 계산해야 한다 (차이가 클수록 p-value 가 작아짐)
- 판단기준 (유의 수준) : 0.05 혹은 0.01 을 사용한다.
- 0.05 보다 작아야 차이가 있다고 판단.
단측 검정 vs 양측 검정
- a/b 중 어디가 차이가 나게 앞서는가 -> 단측검정
- a/b 간에 차이가 있나 -> 양측검정
검정 통계량
- 차이가 있는지 확인 하는 통계량 을 검정 통계량이라고 한다.
통계량의 종류
단계
- 계산된 통계량 -> 각자의 분포를 가짐
- 분포를 통해서 값이 차이가 있는지 큰 지 , 작은 지 판단 가능
- 손쉽게 판단할 수 있도록 계산하는 것이 p-value