편차 : 값 – 평균
분산 : 편차 제곱의 평균
-> df.price.var()
표준편차 : 루트 분산
-> df.price.std()
모집단 population: 연구의 관심이 되는 집단 전체
표본 sample: 특정 연구에서 선택된 모집단의 부분 집합
파라미터 parameter: 어떤 시스템의 특성을 나타내는 값
모수: 모집단 population의 파라미터 → 모집단의 특성을 나타내는 값
예시:
• 모집단의 평균 (모평균)
• 모집단의 분산 (모분산)
통계량 sample statistic : 표본에서 얻어진 수로 계산한 값 (=통계치)
예시:
• 표본의 평균 (표본평균)
• 표본의 분산 (표본분산)
표집 sampling : 모집단에서 표본을 추출하는 절차. "표본 추출"이라고도 함
추정 estimation : 통계량으로부터 모수를 추측하는 절차
• 점 추정 point estimate: 하나의 수치로 추정
• 구간 추정 interval estimate: 구간으로 추정
신뢰구간 confidence interval
• 대표적인 구간 추정 방법
• 모수가 있을 법한 범위로 추정
• 신뢰구간 = 통계량±오차범위
• 95%(신뢰수준) 신뢰구간 = 95%의 경우에 모수가 추정된 신뢰구간에 포함됨
신뢰 수준 confidence level
• 신뢰구간에 모수가 존재하는 표본의 비율
신뢰구간에 영향을 주는 요소
• 신뢰구간이 좁을 수록 예측된 모수의 범위가 좁으므로 유용
• 신뢰수준 낮추기: 큰 의미는 없음
• 표본의 변산성 낮추기:
부트스트래핑 bootstrapping
• 평균과 달리 중간값, 최빈값 등의 통계량은 표집분포의 형태를 간단히 알기 어
려움
• 표본이 충분히 크면 부트스트래핑이라는 시뮬레이션 기법을 사용해서 신뢰구
간을 추정
통계적 가설 검정 statistical hypothesis testing
• Karl Pearson, Ronald Fisher 등 통계학의 초기 인물들이 개발한 절차
• 반증주의 철학에 기반하고 있어 일반적인 과학적 가설 검정과 다름
• 많은 비판이 있으나, 오랫동안 쓰여왔기 때문에 여전히 널리 쓰임
귀무가설과 대립가설
𝐻0 귀무가설 null hypothesis
• 기각하고자 하는 가설
• 차이가 없다, 똑같다와 같은 형태
• 특별한 증거가 없으면 참으로 간주
𝐻1대립가설 alternative hypothesis
• 주장하고자 하는 가설
• 차이가 있다, 다르다와 같은 형태
• 충분한 증거가 필요
통계적 가설 검정의 논리
• 귀무가설을 기각하는 논리:
유의수준과 p 값
• p 값: 귀무가설을 바탕으로 데이터에서 관찰된 결과와 그 이상의 극단적 결과가 나
올 확률을 계산한 것
• 유의수준(significance level)
• p 값을 바탕으로 높고 낮음을 판정하는 기준.
• 그리스 문자 𝛼(알파)로 표기
• 보통 5%(=0.05)를 사용
• 100% - 신뢰수준
• 𝑝 < 𝛼면 귀무가설을 기각 → 대립가설을 채택
p와 유의수준의 비교
p > 유의수준
• 결론을 유보한다
• 결론을 내릴 필요가 있을 경우, 데이터를 더 모은다
• 단, 반복해서 가설검정을 할 경우 유의수준을 조정한다
p < 유의수준
• 귀무가설을 기각한다
• 대립가설을 채택한다
• 흔히 "통계적으로 유의하다 statistically significant"라고 표현(현실적으로 유의한 것은 아님)
• 어떠한 관계가 있다고 주장하기에 표본의 크기가 충분하다는 것으로 이해할 수 있음
• 귀무가설이 참일 경우, 1종 오류는 유의수준만큼 발생
• 유의수준을 낮추면 1종 오류가 감소하고, 2종 오류가 증가
5% 낮다 높다의 기준 : 유의수준
신뢰구간에 있으면 p값 > 유의수준
신뢰구간에 없으면 p값 < 유의수준
상관 계수 correlation coefficient
• 두 변수의 연관성을 -1 ~ +1 범위의 수치로 나타낸 것
• 두 변수의 연관성을 파악하기 위해 사용
상관계수가 커지면 p밸류는 작아짐
데이터가 많아져도 p밸류는 작아짐
상관계수 보는법
import pingouin as pg
pg.corr(df.price, df.mileage)
결과
r= 표본상관계수, (모상관계수 -0.74 ~ -0.61)
귀무가설 : 모상관계수 = 0.0
(p=0.00.. < 0.05)
결론 -> 귀무가설 기각(모상관계수 != 0)
sp.SPX.diff() -> 차분
: 한달씩 기준으로 상승됐냐 하락됐냐 따짐.
회귀분석
지도학습 supervised learning
• 독립변수 x를 이용하여 종속변수 y를 예측하는 것
선형 모형
𝑦 = 𝑤𝑥 + 𝑏
• 𝑦 : 𝑦의 예측치
• 𝑥: 독립변수
• 𝑤: 가중치 또는 기울기
• 𝑏: 절편(𝑥 = 0 일 때, y의 예측치)
from statsmodels.formula.api import ols
m = ols("price ~ mileage", data = df).fit()
m.summary()
상관분석 : 서로 관계가 있는가?
회귀분석 : x를 이용해서 y를 예측하려면 ?
더미 코딩 dummy coding
• 범주형 변수에 범주가 k개 있을 경우 k-1개의 더미 변수를 대신 투입
• 범주 중에 하나를 기준 reference로 지정
Q. 데이터 숫자가 273개 밖에 없는데 회귀분석이 유의미 한가요? 혹시 유의미한 분석 결과를 내기 위해 필요한 최소한의 데이터 숫자가 정해져 있을까요?
-> 유의미한 분석은 없음, 모든 분석은 유의미함. 데이터 1개라도 유의미함.
데이터가 적어도됨 하지만 결론이 잘 안나옴.
왜 많아야 하냐? -> 귀무가설을 기각하고 결론을 내려고
결론이 난다 -> 충분한 분석을 한 것
ols("marriage ~ rating + overtime", data = hr).fit().summary()