확률 밀도 함수 (PDF)

반디·2023년 1월 11일

확률/통계

목록 보기

1/1

이산 확률 변수(discrete random variable) X는 finite(유한)하거나 countably ifinite(ex. 정수)한 값들을 갖는 확률 변수로 X안의 모든 변수에 대하여 확률값 $P(X=x)$ 를 결정할 수 있다.
이를 probability mass function (PMF) 라고 부른다.

그러나, 연속 확률 변수(continuous random variable) X에 대해서는 특정 $x$ 값에 대하여 확률값을 생각할 수 없기 때문에 (사실, $P(X=x) =0$ 이 된다.) 다른 접근을 생각해야 한다.
다른 접근방식으로서 특정 포인트가 아니라, inverval에 대한 확률값을 구하는 방향으로 접근하는 방식이 probability density function (PDF)라고 생각할 수 있다.

정의

우선, PDF의 정의를 살펴보자.
$X$ : support를 $S$ 로 갖는 연속 확률 변수일 때,
$X$ 에 대한 probability density function $f(x)$ 는 다음을 만족하는 적분 가능한 함수이다.
1. $f(x) > 0$ for all $x \in S$
2. $\int_S f(x) dx = 1$
3. $A$ 가 interval 일 때, $P(X \in A) = \int_A f(x) dx$

Note. 확률 변수의 support: 0이 아닌 확률을 갖는 확률 변수들의 집합 (i.e. set of $x$ s.t. $f(x) > 0$ )
$f(x) = \begin{cases} 1 & x \in [0, 1]\\ 0 & otherwise\end{cases}$ 라면, $f(x)$ 의 support는 $[0, 1]$

이제, 위 정의로부터 $P(X = x) =0$ 인 이유를 쉽게 알 수 있다.
$P(X = a) = \int_a^a f(x) dx = 0$ 이기 때문이다.

더불어, $P(X = x) = 0$ 이기 때문에 다음이 성립한다.
$P(a \le X \le b) = P(a < X \le b) = P(a \le X < b) = P(a < X < b)$ for any constants $a, b$

$f(x)$ 는 확률이 아님에 주의하자. 그렇다면 $f(x)$ 는 어떤 의미일까?

P(X \in [x, x+\Delta x]) \simeq f(x)\Delta x

즉, $f(x_1) > f(x_2)$ 라면, $P(x_1 < X < x_1 + \delta) < P(x_2 < X < x_2 + \delta)$ ; 확률 변수 $X$ 가 $x_1$ 보다는 $x_2$ 근처에 있을 확률이 높다고 할 수 있다.

참고문헌
데이터 사이언스 스쿨 - 확률 밀도 함수
https://www.probabilitycourse.com/chapter4/4_1_1_pdf.php
https://online.stat.psu.edu/stat414/lesson/14/14.1
https://www.probabilitycourse.com/chapter4/4_1_1_pdf.php
https://www.statlect.com/glossary/support-of-a-random-variable

반디

꾸준히!

확률 밀도 함수 (PDF)

확률/통계

정의

0개의 댓글