통계 검정

YunGyu Choi·2023년 6월 25일
0

Data Science

목록 보기
10/10

통계 검정

1. 척도

관측 대상의 특성을 수량화 하기위해 단위나 규칙을 가지고특성에 숫자를 부여한 것
(질적 자료 ➡️ 양적 자료)

질적 척도

  • 명목 척도 : 관찰하는 대상의 속성에 따라 그 값에 숫자 부여한 것 (라벨 인코딩)
  • 서열 척도 : 관찰하는 대상의 특성을 측정해서 그 값을 순위로 나타낸 것

양적 척도

  • 등간 척도 : 관찰 대상의 속성을 상대적 크기로 나타낸 것, 순위 뿐만 아니라 솟자 간에 얼만큼 크고 작은지 의미도 담긴 것
  • 비율 척도 : 절대적 기준이 있는 영점이 존재하고 모든 사칙 연산이 가능한 것,
    연구 대상을 분류할 수 있고, 차이를 비교할 수 있고, 순위를 만들 수도 있어 위 철도들의 성격을 다 가진 것

2. 확률 분포

  • 확률 현상 : 나오는 결과의 호부군은 알지만, 가능한 결과들 중 정확히 어떤 결과가 나올지 모르는 현상
  • 확률 변수 : 확률 현상에 기인해 결과가 값이 확률적으로 정해지는 변수
  • 확률 분포 : 확률 변수가 특정 값을 가질 확률을 나타내는 분포
  • 확률 질량 함수(PMF) : 이산 확률 변수에서 특정 값에 대한 확률을 계산하기 위한 함수
  • 확률 밀도 함수(PDF) : 연속 확률 변수에서 특정 구간에 속할 확률을 계산하기 위한 함수
  • 누적 분포 함수(CDF) : 어떤 확률 분포에 대해 확률 변수가 특정 값보다 작거나 같을 확률을 계산하기 위한 함수

이산형 확률 분포

확률 변수가 몇 개의 한정된 후보군을 가지는 분포 (각 사건은 서로 독립적)

  • ex) 베르누이 분포, 이항 분포, 기하 분포, 초기하 분포, 포아송 분포

연속형 확률 분포

확률 변수의 후보군이 무한개여서 사실상 셀 수 없는 분포

  • ex) 정규 분포(가우스분포), 표준 정규 분포(Z분포), T분포, 카이제곱 분포, F분포, 지수 분포, 감마 분포

신뢰 구간

  • 신뢰 수준 : 추정 값이 존재하는 구간에 모수가 포함되어 있을 가능성의 크기 또는 정확도
  • 신뢰 구간 : 신뢰 수준을 기준으로 추정된 통계적으로 유의미한 모수의 범위

확률 분포 그래프

  • 왜도(skewness) : 분포의 비대칭 정도 (왜도 양수는 오른쪽 긴꼬리)
  • 척도(kurtosis) : 분포 꼬리의 길이와 중앙의 높이

3. 가설 검정

가설 설정 ➡️ 유의수준 설정 ➡️ 검정통계량 산출 ➡️ 귀무가설 기각/채택

가설 설정

  • 귀무가설(H0) : 기존에 알려진 것, 효과X, 연관X, 변화X
  • 대립가설(H1) : 입증 하려는 것, 효과O, 연관O, 변화O

가설 종류

  • 양측 검정 : 귀무가설 기각역이 양쪽에 있는 검정
  • 단측 검정 : 귀무가설 기각역이 한쪽에 있는 검정

검정통계량

귀무가설 채택/기각 여부 결정하는 척도가 되는 통계값

  • ex) 표준정규분포(z), t분포(t), 카이제곱분포(x^2), 분산분포(f분포)

유의수준

통계적인 가설 검정에 사용하는 기준 값, 신뢰도 95% 기준 0.05가 유의수준 값이 된다.
(연구는 신뢰도 99%, 일반적으론 신뢰도 95%, 설문조사는 신뢰도 90%)

기각/채택

일반적으로 p-value 0.05이상이면 귀무가설 채택/대립가설 기각

  • 제 1종 오류 : 실제 참인 것을 거짓으로 잘못 판단
  • 제 2종 오류 : 실제 거짓인 것을 참으로 잘못 판단
  • 신뢰수준 : 1종 오류를 범하지 않을 확률
  • 검정력 : 2종 오류를 범하지 않을 확률
profile
velog에는 이론을 주로 정리하고, 코드와 관련된 것은 Git-hub로 관리하고 있어요. 포트폴리오는 링크된 Yun Lab 홈페이지를 참고해주시면 감사하겠습니다!

0개의 댓글