(2-4) 통계학, 기본 개념 / 확률, 확률분포

Yongjoo Lee·2020년 12월 10일

Probability ai math distribution statistic

Programmers 인공지능 데브코스

목록 보기

11/33

통계학, 기본개념

통계학에서 필수적인 개념들을 중심으로 살펴보도록 한다.

개념 정의

통계학(statistics)
- 데이터의 수집, 구성, 분석, 해석, 표현에 관한 학문
- 기술통계학(descriptive statistics)
- 추측통계학(inferential statistics)
👉데이터를 수집하여 표현하고, 분석하여 미래를 예측하는 학문이다.
모집단(population)

: 어떤 질문이나 실험을 위해 관심의 대상이 되는 개체나 사건의 집합

예) 전교 남학생의 키
모수(parameter)

: 모집단의 수치적인 특성

예) 키의 평균
표본(sample)

: 모집단에서 선택된 일부 개체나 사건의 집합

도수(Frequency)

어떤 사건이 실험이나 관찰로부터 발생한 횟수 # 빈도

표현방법
- 도수분포표(Frequency Distribution Table)
- 막대그래프(Bar graph) → 질적 자료 표현
- 히스토그램(Histogram) → 양적 자료 표현

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4742df27-014d-436b-9f21-ef6716b2ebed%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4742df27-014d-436b-9f21-ef6716b2ebed%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2efce210-0fd4-408a-b1ee-dd718dafd976%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2efce210-0fd4-408a-b1ee-dd718dafd976%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F67adbc2b-6344-4e13-b48a-f2e563302823%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F67adbc2b-6344-4e13-b48a-f2e563302823%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F534bd604-242d-41e9-90e0-35cb7457d255%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F534bd604-242d-41e9-90e0-35cb7457d255%2Fimage.png)

막대그래프는 사이 간격이 떨어져있고 순서가 상관없지만,

히스토그램은 비어있는 간격이 없고 순서가 중요하다

줄기-잎 그림(Stem and Leaf Diagram)

양적 데이터를 줄기와 잎으로 구분

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F643ef410-ee05-4b2c-aaf6-5c0eb026dab5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F643ef410-ee05-4b2c-aaf6-5c0eb026dab5%2Fimage.png)

데이터를 보기 쉽게 해주고 특정 구간의 분포를 파악하기 용이하다.

상대도수

도수를 전체 원소의 수로 나눈 것

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fe121de80-626a-4b9f-a3d6-e7ce7c85a21d%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fe121de80-626a-4b9f-a3d6-e7ce7c85a21d%2Fimage.png)

🔥확률을 계산하는 데 중요한 개념이므로 꼭 이해를 하고 있어야 함!

scipy 모듈 : 어떤 데이터를 수집하고, 모집단의 수치적인 특성을 파악하기 위해 이용할 파이썬 모듈

평균

mean

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F2712951c-392f-4031-9895-61fadb38d500%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F2712951c-392f-4031-9895-61fadb38d500%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F816ae5f6-15b2-4dd2-b6e7-7761147b47cb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F816ae5f6-15b2-4dd2-b6e7-7761147b47cb%2Fimage.png)

*statistics 모듈 : mean, median 등의 함수가 들어있는 파이썬 모듈 (추가적인 설치 필요없음)*

평균은 두 가지 종류로 나누어진다.

모평균 $\mu$

모집단 전체 자료일 경우
표본 평균 $\bar{x}$

모집단에서 추출한 표본일 경우

📌평균의 경우 극단 값의 영향을 많이 받기 때문에 ( [1,2,3,100] )

이럴 경우에는 중앙값을 이용하는 것이 좋다.

중앙값(Median)

자료를 순서대로 나열했을 때 가운데 있는 값

Median

자료의 수가 n일 때
- n이 홀수: $\frac{(n+1)}{2}$ 번째 자료값
- n이 짝수: $\frac{n}{2}$ 번째와 $\frac{n}{2}+1$ 번째 자료값의 평균

분산(Variance)

편차의 제곱의 합을 자료의 수로 나눈 값

편차 : 값과 평균의 차이

자료가 모집단일 경우 : 모분산

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F171b9a7e-2e31-411c-bc7e-ddb70b4cf1ae%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F171b9a7e-2e31-411c-bc7e-ddb70b4cf1ae%2Fimage.png)
자료가 표본일 경우 : 표본분산

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F3f779f7e-cbc8-43ce-a355-200f5fefbb10%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F3f779f7e-cbc8-43ce-a355-200f5fefbb10%2Fimage.png)

⚠️ 표본분산은 n-1로 나눈다.

평균을 기준으로 많이 떨어져 있으면 분산값이 크게 나온다.

따라서 값들이 평균을 중심으로 많이 퍼져있는 지 적게 퍼져있는 지 파악할 수 있다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc6469be9-d00e-4619-8db7-2bb229ce004f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc6469be9-d00e-4619-8db7-2bb229ce004f%2Fimage.png)

위의 사진에서 b의 경우 a에 비해 굉장히 큰 값이 나온 것을 확인할 수 있는데

b에 존재하는 이상점(평균과 거리가 먼 값)으로 인해 편차가 크게 나온 것이다.

표준편차(Standard Deviation)

분산의 양의 제곱근

모표준편차(population standard deviation)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fbbcf6733-a4d9-41ef-8afc-b5edbea0dc0f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fbbcf6733-a4d9-41ef-8afc-b5edbea0dc0f%2Fimage.png)
표본표준편차(sample standard deviation)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fbf695ece-c47f-416d-aced-4ce4cfb99586%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fbf695ece-c47f-416d-aced-4ce4cfb99586%2Fimage.png)

statistics 모듈에서는 다음의 함수를 이용한다.

표준편차 : stdev()
모분산 : pvariance()
모표준편차 : pstdev()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fa686e665-9763-472e-a9ea-856207889344%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fa686e665-9763-472e-a9ea-856207889344%2Fimage.png)

numpy 모듈에서는 다음의 함수를 이용한다.

모분산 : var()
모표준편차 : std()

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F74a2c9b7-0edb-4efb-99c8-ca3786494c1e%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F74a2c9b7-0edb-4efb-99c8-ca3786494c1e%2Fimage.png)

ddof 인자를 1로 하면 표본분산과 표본표준편차를 구할 수 있다.

표본분산 : var(a, ddof=1)
표본표준편차 : std(a, ddof=1)

범위(Range)

자료를 정렬하였을 때 가장 큰 값과 가장 작은 값의 차이

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7ab78b5c-48fa-49bd-8c4a-fd2796c12106%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7ab78b5c-48fa-49bd-8c4a-fd2796c12106%2Fimage.png)

파이썬 기본 내장 함수인 max(), min() 을 사용해도 되고,

numpy 모듈의 max(), min() 을 사용해도 된다.

📌극단적인 값이 발생하면 엄청나게 차이가 나는 경우가 있는데

그럴 때 값을 비슷하게 조절할 때 사용이 되는 개념이다!

사분위수(Quartile)

전체 자료를 정렬했을 때 1/4, 1/2, 3/4 위치에 있는 숫자

Q1 : 제 1사분위수
Q3 : 제 3사분위수

numpy 모듈의 quantile() 을 이용한다. (quantile: 백분위수, quartile: 사분위수)

두번째 인자로 0~1 사이의 값을 입력해주고, 입력한 값의 부분에 해당하는 값이 어떤 값인지 찾아준다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fd01ce91d-e52c-4a3b-ab5c-ba50682d13b0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fd01ce91d-e52c-4a3b-ab5c-ba50682d13b0%2Fimage.png)

👉자료들이 어떤 범위에 존재하는 지 확인할 수 있다.

📌범위(Range) 보다 대략적인 데이터의 모양을 파악하는 데에 용이하다.

사분위범위(IQR, Interquartile Range) : Q3 - Q1

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F9b87f901-7dd4-41a2-95b2-8989ce67a3c1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F9b87f901-7dd4-41a2-95b2-8989ce67a3c1%2Fimage.png)

이상적인 값이 있더라도 대략적인 값을 보다 잘 걸러낼 수 있다.

z-score

어떤 값이 평균으로부터 몇 표준편차 떨어져 있는지를 의미하는 값

모집단의 경우

값에서 평균을 뺀 후에 모표준편차나 표준편차로 나눠준다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F737e491d-e9cf-4af7-968f-cb66c19c40f9%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F737e491d-e9cf-4af7-968f-cb66c19c40f9%2Fimage.png)
표본의 경우

값에서 표본평균을 뺀 후에 표본표준편차로 나눠준다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F6d2b2ca7-d6be-4830-8115-5f1ff5403224%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F6d2b2ca7-d6be-4830-8115-5f1ff5403224%2Fimage.png)

scripy 모듈의 stats.zscore() 를 이용한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1acc38b0-3655-4cfc-9696-0cb140797ebe%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1acc38b0-3655-4cfc-9696-0cb140797ebe%2Fimage.png)

ddof 인자를 1로 넣어주면 표본표준편차에 대한 z-score 값을 반환한다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1d3b87fe-53d5-422b-a80f-826715a72f0e%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1d3b87fe-53d5-422b-a80f-826715a72f0e%2Fimage.png)

확률(Probability)

상대 도수에 의한 정의

똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율

예) 다음날 비가 올 확률?

표본공간(sample space) : 모든 가능한 실험결과들의 집합

예) 주사위의 숫자 : $\{1, 2, 3, 4, 5, 6\}$

사건 : 관심 있는 실험 결과들의 집합 ( 표본 공간의 부분 집합 )

예) 주사위의 숫자 중 짝수 : $\{2, 4, 6\}$

고전적 정의

표본 공간의 ⭐모든 원소가 일어날 확률이 같은 경우⭐에는 어떤 사건이 일어날 확률이

→ 사건의 원소의 수 / 표본공간의 원소의 수

(365일 중 O월O일 확률은? → 계절에 따라 확률이 다르기 때문에 위의 식을 이용할 수 없음.

이런 경우에는 상대도수를 활용해야 함!)

어떤 사건 $A$ 가 있을 때,

$A$ 가 일어날 확률을 $P(A)$ 로 표현한다.

확률 0 - 그 사건이 절대로 일어나지 않음

확률 1 - 반드시 그 사건이 일어남

👉확률은 0에서 1사이의 값을 가짐

확률의 계산

표본 공간의 원소의 수를 세야 함
사건의 원소의 수를 세야 함

따라서 경우의 수를 쉽게 셀 수 있는 방법이 필요!

👉조합(combination) 사용

조합(combination)

어떤 집합에서 순서에 상관없이 뽑은 원소의 집합

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdb451cac-5109-4872-afd2-753bff3edde1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdb451cac-5109-4872-afd2-753bff3edde1%2Fimage.png)

예제 # 1

검은공 3개, 흰공 4개가 있을 때

2개의 공을 무작위로 뽑을 때, 둘 다 흰공이 나올 확률은?

표본 공간의 원소의 수

$\begin{pmatrix}7\\2\end{pmatrix}=21$
흰공이 2개 뽑히는 경우의 수

$\begin{pmatrix}4\\2\end{pmatrix}=6$
확률

$\LARGE\frac{6}{21}=\frac{2}{7}$

예제 # 2

검은공 3개, 흰공 4개가 있을 때

3개의 공을 무작위로 뽑을 때, 흰공 1개 검은공 2개가 나올 확률은?

표본 공간의 원소의 수

$\begin{pmatrix}7\\3\end{pmatrix}=35$
흰공 1개, 검은공 2개 뽑히는 경우의 수

$\begin{pmatrix}4\\1\end{pmatrix}\times\begin{pmatrix}3\\2\end{pmatrix}=12$
확률

$\LARGE\frac{12}{35}$

덧셈 법칙(Additivity Law)

$P(A\cup B)=P(A)+P(B)-P(A\cap B)$

예시 )

주사위를 던지는 실험

표본 공간: $S = \{1, 2, 3, 4, 5, 6\}$
사건 $A$ : 주사위의 숫자가 짝수인 사건
- $P(A)=\frac{1}{2}$
사건 $B$ : 주사위의 숫자가 4 이상인 사건
- $P(B) = \frac{1}{2}$
사건 A나 사건 B가 일어날 확률
- $A\cup B = \{2,4,5,6\}$
- $P(A\cup B) = \Large\frac{|A\cup B|}{|S|}=\frac{4}6=\frac{2}3$
사건 A와 사건 B가 동시에 일어날 확률
- $A\cap B = \{4,6\}$
- $P(A\cap B) = \Large\frac{|A\cap B|}{|S|}=\frac{2}6=\frac{1}3$
덧셈법칙 이용 ( $P(A\cup B)=P(A)+P(B)-P(A\cap B)$ )
- $P(A\cup B) = \Large\frac{1}2+\frac{1}2-\frac{1}3=\frac{2}3$

예제 #

1000명의 사람이 있는데, 남자의 비율이 40%, 20세 미만의 비율이 43%, 20세 미만이면서 남자의 비율이 15%라고 한다.

한명의 사람을 랜덤하게 뽑을 때 남자이거나 20세 미만일 확률은?

A : 남자일 사건
- P(A)= 0.4
B : 20세 미만일 사건
- P(B) = 0.43

확률분포

확률변수 (Random Variable)

랜덤한 실험 결과에 의존하는 실수

즉, 표본 공간의 부분 집합에 대응하는 실수

예시 1)

주사위 2개를 던지는 실험

주사위 숫자의 합 → 하나의 확률 변수
주사위 숫자의 차 → 하나의 확률 변수
두 주사위 숫자 중 같거나 큰 수 → 하나의 확률 변수

예시 2)

동전 10개를 던지는 실험

동전의 앞면의 수 → 하나의 확률 변수
첫 번째 앞면이 나올 때까지 던진 횟수 → 하나의 확률 변수

보통 표본 공간에서 실수로 대응되는 함수로 정의

보통 $X$ 나 $Y$ 같은 대문자로 표시

이산확률변수 (discrete random variable) : 확률변수가 취할 수 있는 모든 수 값들을 하나씩 셀 수 있는 경우

예) 주사위, 동전과 관련된 위의 예

연속확률변수 (continuous random variable) : 셀 수 없는 경우

예) 어느 학교에서 랜덤하게 선택된 남학생의 키 → (무수히 많으면서 셀 수 없음)

확률분포 (Probability Distribution)

확률변수가 가질 수 있는 값에 대해 확률을 대응시켜주는 관계

어떤 확률 변수 X가 가질 수 있는 값: $0, 1, 3, 8$

각 값이 나올 확률은?

$P(X=0)=0.2$
$P(X=1)=0.1$
$P(X=3)=0.5$
$P(X=8)=0.2$

확률분포의 표현은 매우 다양함

표
그래프
함수
...

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1f2afde4-0f09-4f95-91eb-1db5af0d83f4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1f2afde4-0f09-4f95-91eb-1db5af0d83f4%2Fimage.png)

예시 )

주사위 2개를 던지는 실험

확률 변수 $X$ : 주사위 숫자의 합
- $X$ 가 가질 수 있는 값 → 2, 3, ..., 12
- $P(X = 12) = \Large\frac{1}{36}$
확률 변수 $Y$ : 주사위 숫자의 차
- $Y$ 가 가질 수 있는 값 → 0, 1, 2, ..., 5
- $P(Y=5)={\Large\frac{2}{36}}={\Large\frac{1}{18}}$

👉

확률 변수 $X$ : 주사위 숫자의 합
주사위를 던질 때마다 $X$ 의 값이 달라질 수 있음
$n$ 번 실험하면, $n$ 개의 숫자가 나옴
이 $n$ 개의 숫자의 평균과 분산을 계산할 수 있음
- 확률 변수 X도 평균과 분산을 가짐 → 이 평균과 분산을 모집단의 평균과 분산이라고 할 수 있음

이산확률변수

이산확률변수의 확률분포

보통 함수로 주어짐
확률변수 X 가 x라는 값을 가질 확률
- $p(X = x) = f(x)$
- 확률질량함수

예)

확률변수 X 가 가질 수 있는 값: 0, 2, 5

$P(X = x) = f(x) = \Large\frac{x+1}{10}$

$P(X=0)=0.1$
$P(X=2)=0.3$
$P(X=5)=0.6$

이산확률변수의 평균

기대값(expected value) 이라고도 함.
$E(X) =\textstyle\sum_{x}xP(X=x)=\textstyle\sum_{x}xf(x)$
$E(X) =0\times0.1+2\times0.3+5\times0.6=3.6$

예를 들어 100,000 번의 실험을 했다면,

0이 대략적으로 10,000 번 나오고,
2가 대력적으로 30,000 번 나오고,
5가 대력적으로 60,000 번 나오게 됨
따라서 평균은

\frac{(0\times10,000+2\times30,000+5\times60,000)}{100,000}\\\;\\=0\times0.1+2\times0.3+5\times0.6=3.6

이산확률변수의 분산

실험을 할 때마다 확률변수의 값이 달라질 수 있음.
따라서 그 변동의 정도인 분산을 계산할 수 있음.

예를들어 100,000 번의 실험을 했다면,
- 평균: 3.6
- $(0 - 3.6)^2$ 이 대략적으로 10,000 번 나옴
- $(2 - 3.6)^2$ 이 대략적으로 30,000 번 나옴
- $(5 - 3.6)^2$ 이 대략적으로 60,000 번 나옴
  
  $\begin{aligned}\sigma^2\\&=\frac{((0-3.6)^2\times10,000 + (2-3.6)^2\times30,000+(5-3.6)^2\times60,000)}{100,000}\;\\&=3.24\end{aligned}$
  
  ![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F171b9a7e-2e31-411c-bc7e-ddb70b4cf1ae%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F171b9a7e-2e31-411c-bc7e-ddb70b4cf1ae%2Fimage.png)
- $(X-\mu)^2$ 의 평균
  
  $\begin{aligned}\sigma^2\\&=E[(X-\mu)^2]=\textstyle\sum_x(x-\mu)^2P(X=x)\\\;\\&={((0-3.6)^2\times0.1 + (2-3.6)^2\times0.3+(5-3.6)^2\times0.6)}\\\;\\&=3.24\end{aligned}$
Var(x)라고도 함

이산확률변수의 표준편차

분산의 양의 제곱근
$\sqrt{\sigma^2} = \sigma$
SD(x) 라고도 함

예제 #

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc7eb5e65-5e93-4671-9678-153bfeaa45b1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc7eb5e65-5e93-4671-9678-153bfeaa45b1%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdf487066-f21d-40ac-8e2c-fc9a688724ea%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdf487066-f21d-40ac-8e2c-fc9a688724ea%2Fimage.png)

확률변수 X의 분산 - 간편식

$\sigma^2=E(X^2)-\{E(X)\}^2$

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F7208cb08-161b-4958-93b3-346e889925e1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F7208cb08-161b-4958-93b3-346e889925e1%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F64768b7c-0a5d-40e5-b2c1-4572b6c6793b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F64768b7c-0a5d-40e5-b2c1-4572b6c6793b%2Fimage.png)

📌그냥 식과 간편식 둘다 알고 있다가 적절하게 사용할 것!

결합확률분포 (Joint Probability Distribution)

두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계

예시 )

확률변수 $X$ : 한 학생이 가지는 휴대폰의 수
확률변수 $Y$ : 한 학생이 가지는 노트북의 수

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F1aac7438-3a29-404b-b685-57e53da736e0%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F1aac7438-3a29-404b-b685-57e53da736e0%2Fimage.png)

결합확률분포를 통해 각 확률변수의 확률분포를 도출 할 수 있음

→ 주변확률분포 (marginal probability distribution)

👉 $X$ 가 0인 경우, 1인 경우, 2인 경우 / $Y$ 가 0인 경우, 1인 경우를 각각 더함

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4116b3d0-8478-4a6d-a580-e6c4740a609a%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4116b3d0-8478-4a6d-a580-e6c4740a609a%2Fimage.png)

공분산 (Covariance)

두 확률변수의 비례관계를 보여줌

확률변수 $X$ , $Y$ 가 존재할 때, $(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)$ 의 평균을 공분산이라고 한다.

* $\mu$ 는 평균

예시 )

고등학교 1학년 학생들

확률변수 $X$ : 키
확률변수 $Y$ : 몸무게
확률변수 $Z$ : 수학성정
$(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)$ : (일반적으로) 양일 가능성이 높음 → (키와 몸무게는 비례관계)
- 양의 상관관계 가능성 존재
$(X-{\Large\mu}_X)(Z-{\Large\mu}_Z)$ : 양과 음이 될 가능성이 반반
- 서로 연관이 없을 가능성 존재
$(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)$ 와 $(X-{\Large\mu}_X)(Z-{\Large\mu}_Z)$
- 각각 확률변수이기 때문에 평균과 분산을 구할 수 있음.
확률변수 $X$ 와 $Y$ 의 공분산(Covariance)
- $(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)$ 의 평균
  $Cov(X,Y)=E[(X-{\Large\mu}_X)(Y-{\Large\mu}_Y)]\\=E(XY)-{\Large\mu}_X{\Large\mu}_Y=E[XY]-E[X]E[Y]$

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fc6a748a2-fd65-4259-bf1f-dbfb78294561%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fc6a748a2-fd65-4259-bf1f-dbfb78294561%2Fimage.png)

👉X가 크면 Y도 조금 클 가능성이 높다.

🔥공분산은 각 확률변수의 절대적인 크기에 영향을 받음

만약 x의 값이 0, 100, 200 이고, y의 값이 0, 1, 2 이면 공분산이 크게 달라진다!

상관계수 (Correlation Coefficient)

절대적인 크기에 영향을 받는 공분산에 대해 단위에 의한 영향을 없앤 것

{\Large\rho}=Corr(X,Y)=\frac{Cov(X,Y)}{{\Large\sigma}_X{\Large\sigma}_Y}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff254137e-a92b-44e0-96ad-45aa78b08cdb%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff254137e-a92b-44e0-96ad-45aa78b08cdb%2Fimage.png)

네 가지 확률분포

중요한 확률분포 네 가지

이항분포
정규분포
포아송분포
지수분포

이항분포 (Binomial distribution)

이항확률변수의 확률분포

베르누이 시행(Bernoulli trial)
- 정확하게 2개의 결과만을 가지는 실험 → 예) 동전던지기
- 보통 성공과 실패로 결과를 구분
- 성공의 확률: $p$
확률변수 X
- $n$ 번의 베르누이 시행에서 성공의 횟수
- 이항확률변수 라고 함

이항확률변수 X의 `확률분포`

f(x)=P[X=x]=\begin{pmatrix}n\\x\end{pmatrix}p^x(1-p)^{n-x}

동전을 10개 던졌을 때 앞면이 나올 확률

→ 성공확률이 0.5라고 하면 기대값(5)일때 수치가 가장 크다. ( 5개가 나올 확률이 가장 크다 )

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fca5e8458-1f94-4887-875d-798951c711ff%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fca5e8458-1f94-4887-875d-798951c711ff%2Fimage.png)

예시 )

어떤 랜덤박스의 뽑기 성공 확률이 0.2이다.

3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률은?

P[x\ge1]=1-P[X=0]\\=1-\begin{pmatrix}3\\0\end{pmatrix}(0.2)^0(1-0.2)^{3-0}=1-0.512=0.488

이항분포의 `평균`, `분산`, `표준편차`

평균
- $E(X)=np$
분산
- $Var(X) = np(1-p)$
표준편차
- $SD(X) = \sqrt{np(1-p)}$

정규분포 (Gaussian distribution)

연속확률변수의 확률분포

확률밀도함수(Probability Density Function) 를 이용하여 표현
- $f(x)$

📌연속확률변수에서는 확률변수 X가 특정 x를 가지는 숫자를 대응시킬 수가 없다!

따라서 연속확률변수의 확률분포에는 확률밀도함수 $f(x)$ 를 제공해준다.

P[a\le X\le b]=\int^b_af(x)dx

확률밀도함수를 이용하여 확률변수 X가 a와 b 사이의 값을 가질 확률을 넓이로 제공.

즉, 그래프 아래 부분의 넓이가 확률이 됨

정규분포의 `확률밀도함수`

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fcc3ab745-2070-45d6-8e57-48aeee9f153b%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fcc3ab745-2070-45d6-8e57-48aeee9f153b%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fb08394ac-70f4-4ad9-a5e9-20cdb54f01f4%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fb08394ac-70f4-4ad9-a5e9-20cdb54f01f4%2Fimage.png)

👉 $\mu$ 일 때가 가장 크다

* $X~N(\mu, \sigma^2)$ 의 뜻 : "평균이 $\mu$ 이고 분산이 $\sigma^2$ 인 정규분포를 따른다"

표준정규확률변수 (Standard normal random variable)

X가 정규분포를 따르는 정규확률변수인 경우

Z=\frac{X-\mu}{\sigma}

🔥모든 정규확률변수는 표준정규확률변수로 변환이 가능!

그래서 하나의 표준 정규분포표를 만들어두면 임의의 정규분포에 대해서 확률 계산이 가능하다!

표준정규분포 (Standard normal distribution)

$Z\text{\textasciitilde}N(0,1)$
표준 정규분포표
- $P[Z\le z]$
  - 만약 $z$ 가 0일 경우는 정확히 반쪽 이하의 영역이므로 확률은 0.5이다.
    
    ![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F752fe5dc-9fe3-442f-960c-ad193f12fa20%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F752fe5dc-9fe3-442f-960c-ad193f12fa20%2Fimage.png)

📌 $P[Z\le z]$ 에서 표준정규확률변수 $Z$ 가 $z$ 보다 작거나 같을 확률이 표로 제공이 된다.

행: 소수점 첫째자리, 열: 소수점 둘째자리
표준정규확률변수 $Z$ 가 0.37보다 작을 확률은 0.64431 이다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff30069db-ee49-4aba-8dc3-b02c43f4a6d5%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff30069db-ee49-4aba-8dc3-b02c43f4a6d5%2Fimage.png)

[출처: https://www.math.arizona.edu/~rsims/ma464/standardnormaltable.pdf]

예제 # 1

$X\text{\textasciitilde}N(4,3^2)$

$P[X\le 4]$ = ?

먼저 확률변수를 표준정규확률변수로 치환해주어야 한다.

Z=\frac{X-\mu}{\sigma}

\begin{aligned}P[X\le 4]&=\begin{bmatrix}{\Large\frac{X-\mu}{\sigma}}\le{\Large\frac{4-\mu}{\sigma}}\end{bmatrix}=P\begin{bmatrix}Z\le {\Large\frac{4-4}{3}}\end{bmatrix}=P\begin{bmatrix}Z\le {0}\end{bmatrix}\\\;\\&=0.5\end{aligned}

코드에서는 바로 인자로 넣어주면 되기 때문에 표준정규확률변수로 치환해줄 필요가 없다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F4d6f3476-59d6-4d88-b453-12d7103aa726%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F4d6f3476-59d6-4d88-b453-12d7103aa726%2Fimage.png)

예제 # 2

$X\text{\textasciitilde}N(4,3^2)$

$P[4 \le X\le 7]$ = ?
- $P[X \le 7]-P[X < 4]$

\begin{aligned}P[X \le 7]-P[X < 4]&=P\begin{bmatrix}Z\le{\Large\frac{7-4}{3}}\end{bmatrix}-P\begin{bmatrix}Z<{\Large\frac{4-4}{3}}\end{bmatrix}\\&=P\begin{bmatrix}Z\le {1}\end{bmatrix}=P\begin{bmatrix}Z< {0}\end{bmatrix}\\&=0.84134-0.5\\&=0.34134\end{aligned}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Fdab2dbd5-c13d-41eb-8f68-cc3edf547bc1%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Fdab2dbd5-c13d-41eb-8f68-cc3edf547bc1%2Fimage.png)

예제 # 3

어떤 종목의 주가가 전날 종가를 평균으로 하고, 표준편차가 50인 정규분포를 따른다고 한다.

오늘 종가가 1,000원일 때, 내일 주가가 1,100원 이상이 될 확률은?

$P[X \ge 1100]$ =?

\begin{aligned}P[X \ge 1100]&=P\begin{bmatrix}Z\ge{\Large\frac{1100-1000}{50}}\end{bmatrix}\\&=P[Z\ge2]\\&=1-P[Z<2]\\&=1-0.97725\\&=0.02275\end{aligned}

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F380b9029-fd8e-41c0-bcd9-e75b27fac158%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F380b9029-fd8e-41c0-bcd9-e75b27fac158%2Fimage.png)

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff177bd14-e69d-439f-897a-44b84639cfc3%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff177bd14-e69d-439f-897a-44b84639cfc3%2Fimage.png)

포아송분포 (Poisson distribution)

일정한 시간 또는 공간 단위에서 발생하는 이벤트의 수의 확률분포

예 )

하루 동안 어떤 웹사이트를 방문하는 방문자의 수
어떤 미용실에 한 시간동안 방문하는 손님의 수
어떤 전기선 100미터당 발생하는 결함의 수
확률분포함수 (확률질량함수)

$P[X=x]=f(x)={\Large\lambda ^x\frac{e^{-\lambda}}{x!}},\hspace{1em}x=0,1,2,\;\dots$
- 평균: $\lambda$
- 분산: $\lambda$
  
  * $\lambda$ : 시간당 평균 수

예제 #

어느 웹사이트에 시간당 접속자 수는 평균이 3( $\lambda=3$ )인 포아송 분포를 따른다고 한다.

앞으로 1시간 동안 접속자 수가 2명 이하일 확률은?

$P[X\le2]$ =

\begin{aligned}P[X\le2]&=P[X=0]+P[X=1]+P[X=2]\\&={3^0\frac{e^{-3}}{0!}}+{3^1\frac{e^{-3}}{1!}}+{3^2\frac{e^{-3}}{2!}}\\&=0.04998+0.14936+0.22404\\&=0.42319\end{aligned}

코드에서는 평균으로 $\lambda$ 값만 인자로 지정해주면 된다.

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2Ff4624a8f-1454-45dd-8387-c1890e3ca61f%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2Ff4624a8f-1454-45dd-8387-c1890e3ca61f%2Fimage.png)

지수분포 (Exponential distribution)

포아송분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률분포

확률밀도 함수

$f(t) = \Large\lambda e^{-\lambda t}$
- $\lambda$ : 포아송분포의 평균
- 평균 : $E(T) = \Large\frac{1}{\lambda}$ 예) 시간당 3명이 오면, 3명이 오는데 걸리는 시간은 1/3이다)
- 분산 : $Var(T) = \Large\frac{1}{\lambda ^2}$

예제 #

어느 웹사이트에 시간당 접속자 수는 $\lambda=3$ 인 포아송분포를 따른다고 한다.

지금부터 시작하여 첫번째 접속자가 30분 이내에 올 확률은?

$P[T\le0.5]$ =?

$\begin{aligned}P[X\le0.5]&=\int^{0.5}_0\lambda e^{-\lambda t}dt=\int^{0.5}_03 e^{-3 t}dt\\&=[-e^{-3t}]^{0.5}_0=1-e^{-1.5}\\&=1-0.2231\\&=0.7769\end{aligned}$

![https://velog.velcdn.com/images%2Fleeyongjoo%2Fpost%2F352473e4-d07c-4766-936b-dfc5638ba5fd%2Fimage.png%5D(https%3A%2F%2Fimages.velog.io%2Fimages%2Fleeyongjoo%2Fpost%2F352473e4-d07c-4766-936b-dfc5638ba5fd%2Fimage.png)

Yongjoo Lee

하나씩 정리하는 개발공부로그입니다.

이전 포스트

(2-3) 벡터 & 직교분해 / QR분해 / SVD, PCA / 최소 제곱법

다음 포스트

(2-4) 통계학, 기본 개념 / 확률, 확률분포

Programmers 인공지능 데브코스

통계학, 기본개념

개념 정의

도수(Frequency)

줄기-잎 그림(Stem and Leaf Diagram)

상대도수

평균

중앙값(Median)

분산(Variance)

표준편차(Standard Deviation)

범위(Range)

사분위수(Quartile)

z-score

확률(Probability)

확률의 계산

조합(combination)

덧셈 법칙(Additivity Law)

확률분포

확률변수 (Random Variable)

확률분포 (Probability Distribution)

이산확률변수

결합확률분포 (Joint Probability Distribution)

공분산 (Covariance)

상관계수 (Correlation Coefficient)

네 가지 확률분포

이항분포 (Binomial distribution)

이항확률변수 X의 `확률분포`

이항분포의 `평균`, `분산`, `표준편차`

정규분포 (Gaussian distribution)

정규분포의 `확률밀도함수`

표준정규확률변수 (Standard normal random variable)

표준정규분포 (Standard normal distribution)

포아송분포 (Poisson distribution)

지수분포 (Exponential distribution)

(2-3) 벡터 & 직교분해 / QR분해 / SVD, PCA / 최소 제곱법

(2-5) 표본분포 / 추정, 검정, 교차엔트로피

0개의 댓글

(2-4) 통계학, 기본 개념 / 확률, 확률분포

Programmers 인공지능 데브코스

통계학, 기본개념

개념 정의

도수(Frequency)

줄기-잎 그림(Stem and Leaf Diagram)

상대도수

평균

중앙값(Median)

분산(Variance)

표준편차(Standard Deviation)

범위(Range)

사분위수(Quartile)

z-score

확률(Probability)

확률의 계산

조합(combination)

덧셈 법칙(Additivity Law)

확률분포

확률변수 (Random Variable)

확률분포 (Probability Distribution)

이산확률변수

결합확률분포 (Joint Probability Distribution)

공분산 (Covariance)

상관계수 (Correlation Coefficient)

네 가지 확률분포

이항분포 (Binomial distribution)

이항확률변수 X의 확률분포

이항분포의 평균, 분산, 표준편차

정규분포 (Gaussian distribution)

정규분포의 확률밀도함수

표준정규확률변수 (Standard normal random variable)

표준정규분포 (Standard normal distribution)

포아송분포 (Poisson distribution)

지수분포 (Exponential distribution)

(2-3) 벡터 & 직교분해 / QR분해 / SVD, PCA / 최소 제곱법

(2-5) 표본분포 / 추정, 검정, 교차엔트로피

0개의 댓글

이항확률변수 X의 `확률분포`

이항분포의 `평균`, `분산`, `표준편차`

정규분포의 `확률밀도함수`