(2) 질적 자료
(3) 양적 자료
(4) EDA
(5) 데이터 시각화(data visualization)
2-2. 데이터의 기초 통계량
(1) 기초 통계량
(2) 중심 경향치
(2-1) 평균
(2-2) 중앙값(median)
(2-3) 최빈값(mode)
(3) 산포도
(3-1) 범위(Range)
(3-2) 사분위수(quartile)
(3-3) 백분위수(percentile)
(3-4) 분산(variance)
(3-5) 표준편차(standard deviation)
(3-6) 변동계수(Coefficient of Variation: CV)
(3-7) 정규 분포 모양
확률(probability) : 모든 경우의 수에 대한 특정 사건이 발생하는 비율. 대체로 수학 외에서는 0과 1 사이의 소수 혹은 분수나 순열 등으로 나타내기보다는, 다른 비율을 나타낼 때처럼 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율(%)로 나타내거나, 옛날처럼 할푼리로 나타내기도 함
확률의 고전적 정의 : 어떤 사건의 발생 확률은 '그것이 일어날 수 있는 경우의 수' 대 '가능한 모든 경우의 수'의 비이다. 단, 이는 어떠한 사건도 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립한다.
표본 공간(Sample Space) : 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
-> ex) 동전 던지기의 경우 S={앞면, 뒷면}, 주사위던지기의 경우 S={1,2,3,4,5,6}
사건 A가 일어날 확률을 P(A)라고 하고, 표본공간(S)가 유한집합일 때 표본공간의 모든 원소들이 일어날 확률이 같으면 P(A)= '사건A가 일어날 원소의 수' / '표본공간 S의 원소의 수'
통계적 확률 정의 : 어떤 시행을 N번 반복했을 때, 사건A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건A가 일어날 상대도수라고 함. N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건A의 통계적 확률 또는 경험적 확률이라고 함
확률의 성질
- 합사건(union) : 사건A 또는 사건B가 일어날 확률
- 곱사건(intersection) : 사건A와 사건B가 동시에 일어날 확률
- 배반사건(mutually exclusive event) : 사건A와 사건B가 동시에 일어날 수 없을 경우
- 여사건(complement) : 사건A가 일어나지 않을 확률
조합과 순열
- ! (Factorial) : n개를 일렬로 늘어 놓은 경우의 수를 n!로 표현함
- 순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수 nPr
- 조합(Combination) : 순서를 고려하지 않고 n개 중 r개를 뽑아서 배열하는 경우의 수 nCr
조건부 확률(conditional probability)
: 어떤 사건A가 발생한 상황에서 (주어졌을 때) 또 하나의 사건B가 발생할 확률
확률의 곱셈법칙
: 사건A와 사건B가 독립일 경우, 두 사건의 교집합의 확률은 각각 사건이 일어날 확률을 곱한 것
베이즈 정리(Bayes' Theorem)
: 표본 공간 S에서 서로 배반인 사건 B1,B2,...,Bk에 의하여 분할되어 있을 때, 임의의 사건 A에 대하여 성립하는 공식
확률 변수(random variable) : 표본공간에서 각 사건에 실수를 대응시키는 함수
확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의해 변함
일반적으로 확률변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현함
- 확률변수: X,Y 등 대문자 표현
- 확률변수의 특정값: x,y 등 소문자 표현
- 이산 확률 변수(discrete random variable) : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
- 연속 확률 변수(continuous random variable) : 연속형 또는 무한대와 같이 셀 수 없는 경우
확률변수 예시
(a) 반도체 1000개의 wafer 중 불량품의 수 X
(b) 공장에서 생산하는 전구의 수명 T
(c) 주사위를 던질 때 나오는 눈의 수 V
확률변수의 평균 : 기대값이라고 표현하기도 함
확률변수의 분산
기대값의 성질
분산의 성질
공분산
: 2개의 확률변수의 선형관계를 나타내는 값으로,
하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고,
반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐
확률분포(probability distribution) : 확률변수 X가 취할 수 있는 모든 값과 그 값이 나타날 확률을 표현한 함수
이산형 확률분포 종류 : 베르누이 분포, 이항분포, 포아송분포, 기하분포, 음이항분포, 초기하분포
연속형 확률분포 종류 : 균일분포, 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포
이산형 균등분포(discrete uniform distribution)
: 확률분포 X가 유한개이고, 모든 확률변수에 대하여 균일한 확률을 갖는 분포
-> 이산형균등분포의 기대값: n+1/2, 분산: (n**2-1)/12
베르누이 시행(Bernoulli trial)
: 각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행
베르누이 분포(Bernoulli distribution)
: 베르누이 시행에서 성공이 '1', 실패가 '0'의 값을 가질 때, 확률변수 X의 분포를 뜻함
-> 베르누이 분포의 평균: p, 분산: p(1-p)
이항분포(Binomial distribution)
: 연속적인 베르누이 시행을 거쳐 나타나는 확률분포. 서로 독립인 베르누이 시행을 n번 반복해서 실행했을 때, 성공한 횟수 X의 확률분포
-> 이항분포의 기대값: np, 분산: np(1-p)
포아송 분포(Poisson distribution)
: 어떤 일정한 시간대에 특정한(희귀한) 사건이 발생할 확률분포
-> ex) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수 등
-> 포아송 분포의 조건
1. 어떤 단위구간 동안 이를 더 짧은 작은 단위의 구간으로 나눌 수 있고, 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
2. 두 개 이상의 사건이 동시에 일어날 확률은 0에 가까움
3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적
4. 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례함
5. 포아송분포 확률변수의 기댓값과 분산은 모두 lambda임
이항 분포의 포아송 근사
기하분포(geometric distribution)
: 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름
-> ex) 축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률 분포
-> 기대분포의 기대값: 1/p, 분산: 1-p/p**2
음이항분포(negative binomial distribution)
: 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 발생한 성공횟수 X의 확률분포
-> ex) 농구선수 허훈의 자유투 성공 확률이 90%일 때, 3번째 실패가 나올 때까지 성공시킨 자유투가 10번일 확률
-> 음이항분포의 기대값: r*(1-p)/p, 분산: r(1-p)/p**2
<제로베이스 데이터 취업 스쿨>