확률 밀도 함수 (PDF)

반디·2023년 1월 11일
0

확률/통계

목록 보기
1/1

이산 확률 변수(discrete random variable) X는 finite(유한)하거나 countably ifinite(ex. 정수)한 값들을 갖는 확률 변수로 X안의 모든 변수에 대하여 확률값 P(X=x)P(X=x)를 결정할 수 있다.
이를 probability mass function (PMF) 라고 부른다.

그러나, 연속 확률 변수(continuous random variable) X에 대해서는 특정 xx 값에 대하여 확률값을 생각할 수 없기 때문에 (사실, P(X=x)=0P(X=x) =0이 된다.) 다른 접근을 생각해야 한다.
다른 접근방식으로서 특정 포인트가 아니라, inverval에 대한 확률값을 구하는 방향으로 접근하는 방식이 probability density function (PDF)라고 생각할 수 있다.

정의

우선, PDF의 정의를 살펴보자.
XX: support를 SS로 갖는 연속 확률 변수일 때,
XX에 대한 probability density function f(x)f(x)는 다음을 만족하는 적분 가능한 함수이다.
1. f(x)>0f(x) > 0 for all xSx \in S
2. Sf(x)dx=1\int_S f(x) dx = 1
3. AA가 interval 일 때, P(XA)=Af(x)dxP(X \in A) = \int_A f(x) dx

Note. 확률 변수의 support: 0이 아닌 확률을 갖는 확률 변수들의 집합 (i.e. set of xx s.t. f(x)>0f(x) > 0)
f(x)={1x[0,1]0otherwisef(x) = \begin{cases} 1 & x \in [0, 1]\\ 0 & otherwise\end{cases} 라면, f(x)f(x)의 support는 [0,1][0, 1]

이제, 위 정의로부터 P(X=x)=0P(X = x) =0 인 이유를 쉽게 알 수 있다.
P(X=a)=aaf(x)dx=0P(X = a) = \int_a^a f(x) dx = 0 이기 때문이다.

더불어, P(X=x)=0P(X = x) = 0 이기 때문에 다음이 성립한다.
P(aXb)=P(a<Xb)=P(aX<b)=P(a<X<b)P(a \le X \le b) = P(a < X \le b) = P(a \le X < b) = P(a < X < b) for any constants a,ba, b

f(x)f(x)는 확률이 아님에 주의하자. 그렇다면 f(x)f(x)는 어떤 의미일까?

P(X[x,x+Δx])f(x)ΔxP(X \in [x, x+\Delta x]) \simeq f(x)\Delta x

즉, f(x1)>f(x2)f(x_1) > f(x_2)라면, P(x1<X<x1+δ)<P(x2<X<x2+δ)P(x_1 < X < x_1 + \delta) < P(x_2 < X < x_2 + \delta); 확률 변수 XXx1x_1 보다는 x2x_2 근처에 있을 확률이 높다고 할 수 있다.

참고문헌
데이터 사이언스 스쿨 - 확률 밀도 함수
https://www.probabilitycourse.com/chapter4/4_1_1_pdf.php
https://online.stat.psu.edu/stat414/lesson/14/14.1
https://www.probabilitycourse.com/chapter4/4_1_1_pdf.php
https://www.statlect.com/glossary/support-of-a-random-variable

profile
꾸준히!

0개의 댓글