데이터 분석 - 7

CYSSSSSSSSS·2023년 8월 17일
0

데이터분석

목록 보기
10/19

가설 검정

  • 새로운 연구를 위해 새로운 가설을 수립한다.
  • 실험을 통해 결과 데이터를 수집한다.
  • 수집한 데이터를 통해 입증을 해야 한다.

연구 절차

기존 가설 -> 기존 가설의 반하는 증거 확인 -> 가설 수립 -> 데이터 수집 -> 가설 검정-> 채택

  • 가설이 충족하지 않은 경우 가설을 업데이트 해야 한다.

모집단과 표본

  • 모집단 : 우리가 알고 싶은 전체 데이터
  • 표본 : 그 대상의 일부 데이터

단계

  • 표본을 통해 모집단에 대한 가설 수립
  • 이 검정이 모집단 에서도 가설이 성립 하는지 확인 해야한다.
  • 어떤 가설에 대해서는 분포를 알아야 한다.

비즈니스 이해 단계

  • 비즈니스 문제로 부터 관심사 (Y) 를 도출한다
  • Y에 영향을 주는 요인 (X) 들을 뽑아서
  • 초기 가설을 수립해야 한다.

고객 이탈 여부 에 영향을 주는 요인은

  • 고객의 가입기간 -> 이탈여부
  • 성별 -> 이탈여부

귀무가설(H0) <-> 대립가설(H1)

  • 영가설
  • 현재의 가설
  • 보수적인 입장

  • 연구가설
  • 새로운 가설
  • 혁신적인 입장

통계적 검정

  • 표본으로부터 대립가설을 확인하고 , 모집단에서도 맞을 것이라 주장

대립가설 : 매장지역에 따라 수요량의 차이가 있다
귀무가설 : 매장 지역에 따라 수요량의 차이가 없다.

  • 분포를 봐야 차이가 나는지 알수 있다

분포의 기준

  • 분포 + 판단 기준이 필요하다.
  • 차이 값이 A 로 부터 p-value 를 계산해야 한다 (차이가 클수록 p-value 가 작아짐)
  • 판단기준 (유의 수준) : 0.05 혹은 0.01 을 사용한다.
  • 0.05 보다 작아야 차이가 있다고 판단.

단측 검정 vs 양측 검정

  • a/b 중 어디가 차이가 나게 앞서는가 -> 단측검정
  • a/b 간에 차이가 있나 -> 양측검정

검정 통계량

  • 차이가 있는지 확인 하는 통계량 을 검정 통계량이라고 한다.

통계량의 종류

  • t 통계량
  • 카이제곱 통계량
  • f분포 통계량

단계

  • 계산된 통계량 -> 각자의 분포를 가짐
  • 분포를 통해서 값이 차이가 있는지 큰 지 , 작은 지 판단 가능
  • 손쉽게 판단할 수 있도록 계산하는 것이 p-value
profile
개발자 되고 싶어요

0개의 댓글