▷ 오늘 학습 계획: 통계 강의(기초 1~3)
기술통계학(descriptive statistics), 추론통계학(inferential statistics)
- 변수(Variable): 조사 목적에 따라 관측된 자료값
- 질적 자료
- 양적 자료
- EDA(Exploratory Data Analysis)
- data visualization
- 중심 경향치
- 중앙값(median)
- 최빈값(mode)
- 산포도
- 범위(Range)
- 사분위수(quartile)
- 백분위수(percentile)
- 분산(variance)
- 표준 편차(standard deviation)
- 변동계수(Coefficient of Variation: CV): 표준편차를 평균으로 나누어서 산출
- 왜도(skew): 자료의 분포가 얼마나 비대칭적인지 표현.
왜도가 0이면 좌우 대칭, 0에서 클수록 우측꼬리가 길고
0에서 작을수록 좌측 꼬리가 김- 첨도(kurtosis): 확률분포의 꼬리가 두꺼운 정도
- 확률(probability), 통계적 확률
- 표본 공간(Sample Space)
- 순열과 조합
- 조건부확률(conditional probability): 어떤 사건 A가 발생한 상황에서(주어졌을 때) 또 하나의 사건 B가 발생할 확률
- 베이즈 정리(Bayes’ Theorem)
random variable
표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
이산 확률 변수와 연속 확률 변수가 있다.확률 변수의 평균(기대값 이라고 표현하기도 함)
확률 변수의 분산
![]()
공분산
2개의 확률변수의 선형 관계를 나타내는 값
probability distribution
확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수
- 이산형 균등 분포(discrete uniform distribution)
- 베르누이 분포
- 이항분포(Binomial distribution)
- 포아송 분포(Poisson distribution)
- 기하분포(geometric distribution)
- 음이항분포(negative binomial distribution)
- 확률밀도함수(pdf: probability density function)
- 누적분포함수(cumulative density function): 확률밀도함수를 적분
- 균일분포(uniform distribution)
- 정규 분포(normal distribution)
![]()
- 표준 정규 분포(standard normal distribution)
- 지수분포(exponential distribution)
확률 분포의 관계도
▷ 내일 학습 계획: SQL 학습과제