표본 추출 방법
표본조사
측정 방법
통계분석
확률
확률 분포
1) 이산형 확률 변수
이산형 확률 분포 | 설명 | 예시 |
---|---|---|
베르누이 확률 분포 | 결과가 2개만 나오는 경우 | 안타를 칠 확률 |
이항분포 | 베르누이 시행을 n번 반복했을때 k번 성공할 확률 - n이 충분히 크면 정규분포에 가까워짐 | 경기에서 5번 타석에 틀어와서 3번 안타를 칠 확률은 이항분포를 따른다. |
기하분포 (초기하분포) | 성공확률이 p인 베르누이 시행에서 첫번째 성공이 있기까지 x번 실패할 확률 | 경기에서 5번 타석에 들어와서 3번째 타석에서 안타를 칠 확률은 기하분포를 따른다(장기하의 첫 번째 성공..) |
다항분포 | 세 가지 이상의 결과를 가지는 반복시행 | |
포아송 분포 | 시간과 공간 내에서 발생하는 사건의 발생횟수에 대한 확률분포 | 추신수선수가 최근 5경기에서 10개 홈런을 때렸다. 오늘 경기에서 홈런을 못 칠 확률은 포아송분포를 따른다. |
2) 연속형 확률 변수
연속형 확률 분포 | 설명 |
---|---|
균일 분포 | |
정규 분포 | 평균이 이고, 표준편차가 인 의 확률밀도함수 |
지수 분포 | 어떤 사건이 발생할 때까지 경과 시간에 대한 연속확률분포 |
t-분포 | 평균이 0을 중심으로 좌우가 동일한 분포 - 자유도가 증가하면 표준정규분포와 같아짐 - 두 집단의 평균이 동일한지 알고자 할 때 검정통계량으로 활용 |
-분포(카이제곱) | - 모평균과 모분산이 알려지지 않은 모집단의 모분산에 대한 가설 검정에 사용 - 정규모집단으로부터 n개의 단순임의추출한 표본의 분산은 자유도 n-1인 카이제곱분포를 따른다 - 두 집단 간의 동질성 검정에 활용 |
F-분포 | - 두 집단간 분산의 동일성 검정에 사용 - 자유도 2개 |
★ 정규분포를 표준정규분포로 만들기 위한 식?
추정
1) 점추정
점추정량의 조건
- 불편성 : 표본에서 얻은 추정량의 기댓값은 모집단의 모수와 편의가 없다.
- 효율성 : 추정량의 분산이 작을 수록 좋다
- 일치성 : 표본의 크기가 아주 커지면, 추정량이 모수와 거의 같아진다.
- 충족성 : 추정량은 모수에 대해 모든 정보를 제공한다
2) 구간추정
95% 신뢰수준 하에서 모평균의 신뢰 구간
모분산이 알려져 있는 경우
표준정규분포 을 따르는 통계량 이용
모분산이 알려져 있지 않은경우, 표본분산을 사용
자유도가 n-1인 t-분포를 따르는 통계량 이용
*신뢰수준 95% : 모수가 신뢰구간 내에 존재할 확률이 95%라는 의미
상관분석의 유형 : 피어슨/스피어만
★ 스피어만, 서열척도, 순서, 순위상관게수 등의 단어는 다 “ㅅ”으로 시작함
t 검정통계량을 통해 얻은 p-value 값이 0.05이하인 경우, 대립가설을 채택하게 되어 우리가 데이터를 통해 구한 상관계수를 활용할 수 있음
data(mtcars)
a <- mtcars$mpg
b <- mtcar$hp
cor(a,b)
cov(a,b)
cor.test(a, b, method="pearson")
단순선형회귀분석
회귀분석에서의 검토 사항
회귀계수의 추정 : 잔차제곱이 가장 적은 선을 구하는 것
결정계수() : 총 변동 중에서 회귀 모형에 의해 설명되는 변동이 차지하는 비율
- 오차: 모집단에서 실제값이 회귀선과 비교해볼때 나타나는 차이
- 잔차 : 표본에서 나온 관측값이 회귀선과 비교해볼 때 나타나는 차이
표본평균보다 내 모델이 확실히 를 더 많이 설명한다고 할 수 있냐?
예제 (결정계수 계산)
Sum of square(TSS) = 3162.7 + 4015.2 = 7178
RSS = 4015.2
다중선형회귀분석
F통계량
으로 확인data(nodal)
glmModel <- glm(r~., data=data, family="binomal")
summary(glmModel)
최적회귀방정식
→ 두 모델 결과가 다를 수 있음
모든 후보 모형들에 대해 AIC 또는 BIC를 계산하고 그 값이 최소가 되는 모형을 선택
##### 전진선택법
# step(lm(출력변수~입력변수, 데이터세트), scope=list(lower=~1, upper=~입력변수),
# direction="변수선택방법")
# (k =2) AIC, (k=log(자료의 수)) BIC
step(lm(y~1, data=df), scope=list(lower=~1, upper=~x1+x2+x3+x4), direction="foward")