모집단과 표본분포, 추정, 가설검정

InSung-Na·2023년 3월 2일
0

Part 07. Statistics

목록 보기
3/5
post-thumbnail

해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다

1. 모집단과 표본

  • 모집단 : 관측치의 전체 집합
  • 표본 : 모집단을 추정하기 위해 일부를 추출한 집합

표본추출(Sampling)

  • 모집단으로 부터 표본을 추출하는 것

  • 추출 방법

    • 복원추출

      • 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣고 추출하는 방법, 중복가능
    • 비복원추출

      • 모집단에서 데이터를 추출할 때 하나를 추출하고 다시 넣지 않는 방법, 중복불가능
    • 랜덤샘플링

      • 각 개체를 모두 동일한 확률로 추출하는 방법(주의. 비편향되어야 함)

샘플링 기법

  • Over Sampling
    • 타겟 데이터가 적은 경우 많은 class의 비율만큼 증가시킴(일정 비율로 복원추출)
    • 과적합 발생가능
  • Under Sampling
    • 타겟 데이터가 많은 경우 적은 class의 비율만큼 감소시킴
    • 편향가능, 모형의 성능 감소가능


2. 표본분포

  • 통계량
    • 표본에 기초하여 계산되는 수치 함수
  • 표본분포
    • 통계량들이 이루는 분포


중심극한 정리

  • 평균이 μ\mu이고 σ2\sigma^2인 임의의 모집단에서 랜덤 표본 n개를 추출했을 때, n>=30이면 표본평균은 근사적으로 정규분포 N(μ,σ2n)N(\mu, \frac{\sigma^2}{n})을 따른다.


카이제곱분포

자유도

  • 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미하며 일반적으로 n-1을 사용함

  • ex. 표본의 크기가 5이고, 표본 평균이 3로 정해졌다면, 숫자 4개는 자유롭게 정할 수 있으나 마지막 하나의 숫자는 나머지 네 개의 숫자에 의해 결정. 1, 2, 3, 4를 골랐다면 마지막 숫자는 자동으로 5가 되야 평균이 5로 정해져 있음

  • 카이제곱 분포는 자유도가 커지면서 표준정규 분포에 근사하며, n ≥ 30이면, 확률을 근사적으로 정규분포로 구할 수 있음


t분포


F분포

문제)
모집단 Y1Y_1 ~ N(4,42)N(4, 4^2), Y2Y_2 ~ N(12,82)N(12, 8^2), 각각의 모집단으로부터 표본을 추출했을 때 n1=20,n2=10n_1 = 20, n_2 = 10이라고 하자.

P[s12s22c]=0.05P[\frac{s_1^2}{s_2^2}\le c] = 0.05에서 C를 구하시오

 ~

풀이)
F=s12/σ12s22/σ12F=\frac{s_1^2/\sigma_1^2}{s_2^2/\sigma_1^2} ~ F(19,9)F(19,9)

P[s12s22c]P[\frac{s_1^2}{s_2^2}\le c] = P[s12σ22s22σ12σ22σ12c]=P[F4C]P[\frac{s_1^2 \sigma_2^2}{s_2^2 \sigma_1^2}\le \frac{\sigma_2^2}{\sigma_1^2} c] = P[F \le 4C] = 0.05

P[F>f0.95(19,9)]=0.95P[F > f_{0.95}(19,9)] = 0.95

4c=f0.95(19,9)=1f0.05(9,19)=112=12.424c = f_{0.95}(19,9)=\frac{1}{f_{0.05}(9,19)} = \frac{1}{12} = \frac{1}{2.42}

c=1/8.48c=1/8.48


3. 추정

3-1. 추정

  • 추정(estimation)

    • 모집단의 모수를 모를 경우 표본으로 추출된 통계량을 모집단의 근사값으로 사용하는 것
  • 추정량(estimator)

    • 표본 평균으로 모평균을 추정할 때 표본 평균을 모평균에 대한 추정량 이라고 함

모수 추정방법

  • 점추정(point estimation) : 모수를 하나의 특정값으로 추정하는 방법

    • 일치성 : 표본의 크기가 모집단의 크기에 근접해야 함

    • 불편성 : 추정량이 모수와 같아야 함

    • 유효성 : 추정량의 분산이 최소값이어야 함

    • 평균오차 제곱 : 평균오차제곱이 최소값이어야 함

  • 구간 추정(interval estimation)

    • 모수가 포함될 수 있는 구간을 추정하는 방법
  • 신뢰구간

    • 추정값이 존재하는 구간에 모수가 포함될 확률


모집단의 분산을 아는 경우


모집단의 분산을 모르는 경우


표본의 크기 결정


3-2. 모비율 추정

모비율의 점추정

모비율의 구간추정


모평균 차이의 추정


모비율의 추정


4. 가설검정

4-1. 가설검정과 유의수준 정의

  • 가설 검정 = 가설(Hypothesis) + 검정(Testing)

가설

  • 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측

  • 통계학에서는 모수를 추정할 때 모수가 어떠하다고 증명하고 싶은 추측이나 주장을 의미함

  • 귀무 가설(Null hypothesis: H0H_0

    • 기존의 사실(아무것도 없다, 의미가 없다)
    • 대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대이며, 연구목적이 아님
    • ex) H0H_0 : 코로나 백신이 효과가 없다, H0:μ=0H_0:\mu = 0
  • 대립 가설(Alternative hypothesis: H1H_1

    • 데이터를 기반으로 주장하고 싶은 가설 또는 연구 목적인 가설, 귀무가설의 반대
    • ex) H1H_1 : 코로나 백신이 효과가 있다, H0:μ0H_0:\mu \neq 0 or μ0\mu \ge0

오류

  • 제1종 오류
    • 귀무가설이 참이지만, 귀무가설을 기각하는 오류
  • 제2종 오류
    • 귀무가설을 기각해야 하지만, 귀무가설을 채택하는 오류

검정통계량, P-value, 기각역

  • 검정통계량

    • 귀무가설이 참이라는 가정하에 얻은 통계량

    • 검정결과 대립가설을 선택하게 되면 귀무가설을 기각(reject)함

    • 검정결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함

  • P-value: 귀무가설이 참일 확률

    • 0~1사이의 표준화된 지표(확률값)

    • 귀무가설이 참이라는 가정하에 통계량이 귀무가설을 얼마나 지지 하는지를 나타내는 확률

    • 대게 0.05 or 0.1의 유의수준(\alpha)보다 낮으면 귀무가설을 기각한다

  • 기각역(reject region)

    • 귀무가설을 기각시키는 검정통계량의 관측값의 영역

가설검정의 절차

  1. 가설수립: H0H_0: 코로나 백신이 효과가 없다, H1H_1: 코로나 백신이 효과가 있다
  2. 유의 수준 결정: 유의수준 α\alpha 정의
  3. 기각역 설정
  4. 검정통계량 계산
  5. 의사 결정

양측검정과 단측검정

  • 양측검정
    • 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
    • ex) A직무와 B직무의 평균 연봉은 차이가 있다
  • 단측검정
    • 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 부장
    • ex) A직무가 B직무보다 평균 연봉이 크다

4-2. 단일 표본에 대한 가설검정

모평균 가설검정 – 모분산을 아는 경우


모평균 가설검정 – 모분산을 모르는 경우(소표본)


모비율 가설검정


대표본과 소표본

  • 대표본 : n30n\ge 30 ~ Z분포Z분포
  • 소표본 : n<30n< 30 ~ σ2\sigma^2을 알면Z분포Z분포, 모르면 t분포t분포

4-3. 두 개의 표본에 대한 가설 검정

대표본 – 모분산을 아는 경우


소표본 – 모분산을 모르는 경우


대응 비교

0개의 댓글