데이터 분석 - 신뢰구간

CYSSSSSSSSS·2023년 8월 18일

데이터 분석 신뢰구간 평균 추정

데이터분석

목록 보기

13/19

평균 추정과 신뢰구간

평균과 분산
모집단과 표본
표본평균 으로 모평균 추정
중심극한정리
95% 신뢰구간

평균과 분산 표준편차

한 집단을 설명하기 위해 대푯값으로 평균을 계산했을떄
값들이 평균으로 부터 얼마나 떨어져 있는지 나타내는 값을 표준 편차라고 한다

분산 : 편차 제곱의 평균
표준편차 : $분산 ** 0.5$

모집단과 표본

if

전국 고등학생의 평균 키를 조사한다
전수조사 , 표본조사 가 있다
전수조사 : 모집단 전체를 조사하는 방법 (정확 Up , 오차 0 /돈이 많이든다 ,소요시간 Up)
표본조사 : 많은 수에 무작위 데이터를 표본으로 추출하여 조사하는 방법 (적절한 비용과 / 오차가 존재 한다)

표본을 뽑는 목적

모집단을 추정하기 위해 표본을 가지고 통계량을 계산하면 , 목적은 모집단 추정이다.

표본평균

모 평균에 대한 추정치
추정치에는 오차가 존재하는데 이를 표준오차

표본의 통계량

모집단에서 표집한 데이터 로 만든 통계량
표본 평균
표본 분산 (표준편차)

모집단의 통계량

모 평균
모 분산(표준편차)

모/표본 집단 통계량 기호

𝜇 : 모평균
𝜎2 (𝜎) : 모분산(모표준편차)
X : 표본평균
𝑠2 (𝑠) : 표본분산 (표본표준편차)

중심극한정리 (Central Limit Theorem)

모집단에서 표집해온 표본들의 평균들은 (표집분포) -> 정규분포에 가까워짐
표본의 데이터수(표본의 크기) >= 30개
이 분포(평균들의 분포) 의 평균 : 모평균 에 근사(평균을 많이 뽑을수록).
표본의 크기가 클 수록 정규분포 모양이 중심에 가까워지는 좁은 형태가 된다.

표준오차 (standard error)

Xn 은 표본평균의 집합
X1 은 정규 분포로 나온값 (X1은 정규분포로 부터 나온값)
분포는 정규분포이다.
모평균 : 추정하고 싶은 정답
표본평균 : 모평균에 대한 추정치
모평균과 표본평균의 차이 -> 오차 error
Xn 분포의 표준편차 -> 표준오차

표준오차 Standard error
$S/n **0.5$

신뢰구간 95%

표준오차를 바탕으로 신뢰구간을 계산 할수가 있다.
X1 으로 모평균을 추정할떄
95% 신뢰구간 : X1 - 1.96 SE ~ X1 + 1.96 SE (SE = 표준오차)
신뢰구간은 모평균이 포함될 확률이 95%
표본을 100번 뽑으면 95번 정도는 95% 신뢰구간 안에 모평균을 포함한

-X1 - 1.96 SE ~ X1 + 1.96 SE 이구간이 모집단의 평균이 신뢰할수 있을것이라는 구간이라는 추정

개발자 되고 싶어요

이전 포스트

데이터 분석 - 9

다음 포스트

데이터 분석 - 10

1개의 댓글

2023년 8월 18일

감사합니다. 이런 정보를 나눠주셔서 좋아요.

답글 달기