데이터 분석 - 신뢰구간

CYSSSSSSSSS·2023년 8월 18일
0

데이터분석

목록 보기
13/19

평균 추정과 신뢰구간

  • 평균과 분산
  • 모집단과 표본
  • 표본평균 으로 모평균 추정
  • 중심극한정리
  • 95% 신뢰구간

평균과 분산 표준편차

  • 한 집단을 설명하기 위해 대푯값으로 평균을 계산했을떄
  • 값들이 평균으로 부터 얼마나 떨어져 있는지 나타내는 값을 표준 편차라고 한다

분산 : 편차 제곱의 평균
표준편차 : 분산0.5분산 ** 0.5

모집단과 표본

if

  • 전국 고등학생의 평균 키를 조사한다

  • 전수조사 , 표본조사 가 있다

  • 전수조사 : 모집단 전체를 조사하는 방법 (정확 Up , 오차 0 /돈이 많이든다 ,소요시간 Up)

  • 표본조사 : 많은 수에 무작위 데이터를 표본으로 추출하여 조사하는 방법 (적절한 비용과 / 오차가 존재 한다)

표본을 뽑는 목적

  • 모집단을 추정하기 위해 표본을 가지고 통계량을 계산하면 , 목적은 모집단 추정이다.

표본평균

  • 모 평균에 대한 추정치
  • 추정치에는 오차가 존재하는데 이를 표준오차

표본의 통계량

  • 모집단에서 표집한 데이터 로 만든 통계량
  • 표본 평균
  • 표본 분산 (표준편차)

모집단의 통계량

  • 모 평균
  • 모 분산(표준편차)

모/표본 집단 통계량 기호

𝜇 : 모평균
𝜎2 (𝜎) : 모분산(모표준편차)
X : 표본평균
𝑠2 (𝑠) : 표본분산 (표본표준편차)

중심극한정리 (Central Limit Theorem)

  • 모집단에서 표집해온 표본들의 평균들은 (표집분포) -> 정규분포에 가까워짐
  • 표본의 데이터수(표본의 크기) >= 30개
  • 이 분포(평균들의 분포) 의 평균 : 모평균 에 근사(평균을 많이 뽑을수록).
  • 표본의 크기가 클 수록 정규분포 모양이 중심에 가까워지는 좁은 형태가 된다.

표준오차 (standard error)

  • Xn 은 표본평균의 집합

  • X1 은 정규 분포로 나온값 (X1은 정규분포로 부터 나온값)

  • 분포는 정규분포이다.

  • 모평균 : 추정하고 싶은 정답

  • 표본평균 : 모평균에 대한 추정치

  • 모평균과 표본평균의 차이 -> 오차 error

  • Xn 분포의 표준편차 -> 표준오차

표준오차 Standard error
S/n0.5S/n **0.5

신뢰구간 95%

  • 표준오차를 바탕으로 신뢰구간을 계산 할수가 있다.
  • X1 으로 모평균을 추정할떄
  • 95% 신뢰구간 : X1 - 1.96 SE ~ X1 + 1.96 SE (SE = 표준오차)
  • 신뢰구간은 모평균이 포함될 확률이 95%
  • 표본을 100번 뽑으면 95번 정도는 95% 신뢰구간 안에 모평균을 포함한

-X1 - 1.96 SE ~ X1 + 1.96 SE 이구간이 모집단의 평균이 신뢰할수 있을것이라는 구간이라는 추정

profile
개발자 되고 싶어요

1개의 댓글

comment-user-thumbnail
2023년 8월 18일

감사합니다. 이런 정보를 나눠주셔서 좋아요.

답글 달기