2. Random Variables
2.1 Introduction

- 각 사건 스몰 오메가 w에 대해서 실수 X(w)를 할당하는 매핑을 random variable이라고 함
- Sample space라는 단어를 쓰기보다 random variable를 바로 사용하지만 sample space 개념이 내재된 점을 유의해야함
2.2 Ex
- 동전을 열 번 던진다고 가정
- X(w)를 시퀀스 w에서 동전의 앞면이 나온 수
- w= HHTHHTHHTT 일때 X(w)=6
2.3 Ex
-
단위원을 샘플 스페이스로 가정할 때
-
샘플 스페이스의 점들은 w=(x,y)의 형태로 존재함
-
RV의 예시는 X(w)=x, Y(w)=y, Z(w)=x+y, W(x)=x2+y2
-
Random variable X와 실수 선의 부분집합인 A가 주어질 때
- X−1(A)={ω∈Ω:X(ω)∈A}라고 정의

- RV X가 A에 포함될 확률은 ω∈Ω,X(ω)∈A일 확률과 같음
2.4 Ex
- 코인을 두번 던져 앞면이 나온 횟수를 X라고 가정
- P(X=0)=P({TT})=1/4, P(X=1)=P({TH,HT})=1/2
- P(X=2)=P({HH})=1/4
2.2 Distribution Functions and Probability Functions

- CDF FX는 0과 1사이의 값을 가지며 FX(x)는 X가 x보다 작거나 같을 확률
- CDF는 RV의 대부분의 정보를 가진다고 나중에 증명
2.6 Ex
- Ex 2.4의 상황에서 CDF를 구함
- 코인을 두번 던져 X를 앞면이 나온 횟수라고 가정
- P(X=0)=P({TT})=1/4, P(X=1)=P({TH,HT})=1/2
- P(X=2)=P({HH})=1/4


- x가 값으로 0,1,2만 가질 수 있어서 0,1,2에서만 불연속이고 값이 증가하는 함수 형태를 가짐
2.7 Theorem
- X가 CDF F를 가지고 Y가 CDF G를 가진다고 가정
- 모든 x에서 F(x)=G(x)일 때 모든 A에 대해 P(X∈A)=P(Y∈A)
- ∫AFX(x)dx=∫AGY(y)dy
2.8 Theorem
- 확률이 음수가 나올 수 없기 때문에 F는 non-decreasing
- x가 음의 무한대로 갈 때는 F가 0이 되고 x가 양의 무한대로 갈 때는 F가 1이 된다
- F는 우극한과 함수값이 같은 함수(x가 이산적인 값을 가질 때 좌극한은 함수값이 다름)
F가 오른쪽에서 연속임을 증명
- y1,y2….를 실수의 시퀀스, y1>y2>…이고 limiyi=x라고 가정
- Ai=(−∞,yi],A=(−∞,x]라고 가정

- F(x)가 non-decreasing이기 때문에 우극한 값은 항상 함수값과 같음(좌극한은 다를 수 있음)

- X가 셀 수있는 유한의 값을 가질 때 discrete함
- fX(x)=P(X=x)를 probability function 혹은 probability mass function이라고 함


- X의 CDF는 X의 probability function으로 나타낼 수 있음
2.10 Ex
- 예제 2.6에서의 probability function



- 모든 x에 대해 fX(x)≥0이고 ∫−∞∞fX(x)dx=1을 만족하는 fX가 존재할 때 RV X를 continuous라고 함
- PDF의 값이 확률을 의미하는 것이 아닌 원하는 범위에서의 적분값이 그 구간의 확률을 나타냄
- CDF는 음의 무한대에서 x까지 PDF를 적분한 값이며 CDF가 적분 가능한 모든 포인트 x에서 CDF를 미분하면 PDF가 됨
- 가끔 ∫fX(x)dx는 ∫−∞∞fX(x)와 같은 의미로 사용됨
2.12 Ex


- 모든 x에 대해 fX(x)≥0이고 ∫−∞∞fX(x)dx=1을 만족

2.13 Ex

- ∫−∞∞f(x)dx=∫0∞(1+x)21=[−1+x1]0∞=1 → 정의될 수 있는 PDF임을 증명
- X가 continuous한다면 모든 x에 대해서 P(X=x)=0을 만족함
- f(x)가 확률이 아님



- P(X=x)는 F(x)에서 F(x)의 좌극한을 뺀 값

-
CDF F의 값이 q보다 커지게 하는 x값을 F−1(q)라고 함
-
F가 증가함수이고 연속적이면 F(x)=q를 만족하는 F−1(q)는 유일한 x 값을 가짐
-
F−1(1/4): first quartile, F−1(1/2): median, F−1(3/4): third quartile

→ Equal in distribution
- Distribution이 같다고 해도 같은 RV가 아닐 수 있음
ex) P(X=1)=P(X=-1), Y=-X
2.3 Some Important Discrete Random Variables
- X∼F: X가 분포 F를 가진다는 표시
The Point Mass Distribution
- X∼δa
- fX(x)=1,x=a
- fX(x)=0,x=a


The Bernoulli Distribution
- X가 두 개의 면을 가진 코인 플립을 나타냄
- P(X=1)=p,P(X=0)=1−p,p∈[0,1]
- X∼Bernoulli(p)
- f(x)=px(1−p)1−x,x∈{0,1}
The Binomial Distribution
- 동전의 앞면이 나올 확률이 p이고 0≤p≤1
- 코인을 n번 던졌을 때의 mass funtion f(x)

- Binomial mass function를 가지는 RV는 Binomial Random Variable이라고 함
- X∼Binomial(n,p),X1∼Binomial(n1,p),X2∼Binomial(n2,p)
- X1+X2∼Binomial(n1+n2,p)
- X는 RV, x는 RV의 특정한 값, n과 p는 파라미터로 p는 알고 있는 값이 아닌 데이터로부터 추정된 값
- 대부분의 통계 모델에는 RV와 파라미터가 존재
The Geometric Distribution

- p∈(0,1)
- k번째 횟수에서 첫번째로 p의 확률을 가진 사건이 일어날 확률
∑k=1∞P(X=k)=p∑k=1∞(1−p)k−1=1−(1−p)p=1
- 모든 가능한 k에 대해서 확률을 모두 더하면 1이 됨
The Poisson Distribution
- X∼Poisson(λ)


∑n=0∞n!xn=ex
-
Poisson은 방사능 반감이나 교통사고와 같이 적게 일어나는 이벤트에 사용됨
-
X1∼Poisson(λ1),X2∼Poisson(λ2)
-
X1+X2∼Poisson(λ1+λ2)
-
모든 분포에서 sample space를 언급하지 않았는데 sample space는 분포 안에 내재되어 있음
-
Bernoulli random variable의 예시
-
Ω=[0,1],P([a,b])=b−a for 0≤a≤b≤ 1,p∈[0,1]

-
P(X=1)=P(ω≤p)=P([0,p])=p,P(X=0)=1−p
→ X∼Bernoulli(p)
2.4 Some Important Continuous Random Variables
X∼Uniform(a,b)


Normal (Gaussian)
- 파라미터 μ,σ를 가지는 Normal(Gaussian) 분포는 X∼N(μ,σ2)으로 표기
f(x)=σ2π1exp{−2σ21(x−μ)2},x,μ∈R,σ>0
- μ는 평균, σ는 표준편차
- 자연의 많은 현상들이 대략적으로 normal distribution을 가짐
- Central Limit Theorem에 의하면 RV의 합은 Normal distribution으로 근사가 가능
- μ=0,σ=1인 normal distribution을 특별히 standard Normal distribution이라고 하고 Z로 표현
- Standard normal의 pdf와 cdf는 각각 ϕ(z),Φ(z)로 표현



- Standard normal distribution의 CDF 대부분 값들이 표로 주어짐
- P(Z<a)=Φ(a)

Exponential Distribution

- 다음 pdf를 가질 때 파라미터 β를 가지는 exponential 분포를 X∼Exp(β)로 표기
- Exponential 분포는 전자 부품의 수명과 가끔 일어나는 이벤트들 사이의 대기 시간을 모델링할 때 쓰임
Gamma Distribution
- α>0 일때 Gamma function은 Γ(α)=∫0∞yα−1e−ydy 로 정의
- 파라미터 α,β에 대해서 다음과 같은 분포를 가질 때

- X∼Gamma(α,β)
- Gamma(1,β)는 exponential 분포와 같음
- Xi∼Gamma(αi,β)가 서로 독립일 때 ∑i=1nXi∼Gamma(∑i=1nαi,β)
→ Jointly Distribution, 곱셈이 덧셈으로 바뀜…
The Beta Distribution
- α,β>0이고 다음과 같은 pdf를 가질 때 X∼Beta(α,β)로 표기

t and Cauchy Distribution
- 다음 pdf를 가질 때 X가 자유도 v를 가지는 t분포를 가지고 X∼tv로 표기

- t분포는 normal distribution과 비슷하지만 꼬리가 더 두껍다.
- 자유도가 무한대일 때 t분포는 normal distribution과 일치
- 자유도가 1일 때 t분포는 Cauchy distribution과 일치
- Cauchy distribution pdf
f(x)=π(1+x2)1

The χ2 Distribution
- PDF가 다음과 같은 형태일 때 자유도 p인 χ2 distribution을 가지고 X∼χp2으로 표기

- Z1,...,Zp가 서로 독립적인 standard normal rv라면 ∑i=1pZi2∼χp2을 만족
2.5 Bivariate Distributions
- Discrete random variable X, Y 쌍이 주어졌을 때 Joint mass function은
f(x)=P(X=x and Y=y) 로 정의
- P(X=x and Y=y) 를 P(X=x,Y=y) 로 표기
- f 를 fX,Y 로 명백하게 표현


- Continuous case에서
- 단일 변수 PDF와 같이 f(x,y) 도 모든 x,y 값에서 0보다 크거나 같은 값을 가짐
- x,y 모든 구간에서 PDF를 적분하면 1이 나옴
- 2차원 실수 구간의 부분집합인 A에 대해서 X,Y가 A에 포함될 확률은 ∫∫Af(x,y)dxdy
- Discrete, Continuous 모두 joint CDF를 FX,Y(x,y)=P(X≤x,Y≤y)

- ∫01/2∫01/2f(x,y)dxdy=∫01/2∫01/2dxdy=1/4

- Jointly PDF가 성립할 수 있는지를 증명한 예제 x,y 모든 구간에 대해 적분을 하면 1이 나옴

- x와 y의 모든 구간에서 적분을 하면 1이 나오는 특성을 이용해서 c를 구함
- x2≤y≤1에서 x의 구간이 −1≤x≤1임을 알 수 있음
- P(X≥Y) 는 x가 음수 일시 x2>x 가 되기 때문에 0≤x≤1구간을 가지고 y는 x2≤y≤x를 가짐

2.6 Marginal Distributions

- (X,Y)가 Jointly distribution with mass function fX,Y을 가질 때 X에 대한 marginal mass function은 fX,Y가 Y가 가질 수 있는 y에 대한 확률값을 모두 더함

- fX(0)=fX,Y(X=0,Y=0)+fX,Y(X=0,Y=1)=3/10

- FX(x)=∫F(x,y)dy,FY(x)=∫F(x,y)dx

- Y가 가질 수 있는 모든 구간인 [0,inf)에서 적분하면 x에 대한 marginal distribution을 얻음


x2≤y≤1 에 의해서 x는 −1≤x≤1의 구간을 가짐
2.7 Independent Random Variables

- 위 식이 성립할 때 random variable X,Y를 independent 하다고 정의

∫B∫AfX,Y(x,y)dxdy=∫AfX(x)dx∫BfY(y)dy=∫B∫AfX(x)fY(y)dxdy
∑B∑AfX,Y(x,y)=∑AfX(x)∑BfY(y)=∑B∑AfX(x)fY(y)
- 정의에 의해서 모든 구간 A,B에서 위의 식이 성립



- dy와 dx의 순서를 바꿔서 계산해도 같은 결과가 나옴

- Random variable X,Y의 범위가 모두 무한일 때 f(x,y)가 x로만 이루어진 함수 g(x)와 y로만 이루어진 함수 h(y)로 분리가 될 때 X와 Y는 독립

2.8 Conditional Distribution

- Discrete random variable X,Y에 대해 식이 성립, probability mass function은 함숫값이 곧 확률값
- 분모는 0이 될 수 없기 때문에 fY(y)는 0보다 큰 값을 가짐

- Continuous random variable X,Y에 대해서 위 식이 성립
- 질문
- P(X∈A∣Y∈B)
∫BfY(y)dy∫B∫AfX∣Y(x∣y)dxdy
→ 이렇게 나타낼 수 있을까? 아니면 수식으로는 나타내기 어려운지

-
0≤y≤1 일때만 fY(y)가 0보다 큰 범위를 가져서 X∣Y=y∼Uniform(0,1)이 성립
-
Conditional PDF 정의에 의해서 fX,Y(x,y)=fX∣Y(x∣y)fY(y)=fY∣X(y∣x)fX(x) 가 성립



- X는 0부터 1까지 uniform distribution을 가짐
- Y∣X=x 는 x부터 1까지의 uniform distribution을 가지고 fX(x)의 함숫값이 1인 구간이 x<y<1이기 때문에 pdf의 함수값이 를 1−x1로 가짐


2.9 Multivariate Distributions and IID Samples
- X1,...,Xn: random variables
- X=(X1,...,Xn): random vector
- f(x1,...,xn): PDF
- A1,...,An에서 X1,...,Xn이 독립일 때
- P(X1∈A1,...,Xn∈An)=Πi=1nP(Xi∈Ai)

- X1,...,Xn이 독립이고 CDF F를 가지는 같은 marginal distribution을 가질 때, X1,...,Xn은 IID이고 X1,...,Xn∼F 로 표기
- F가 density f를 가질 때 X1,...,Xn∼f로 표기하고 X1,...,Xn은 F로부터의 size n인 random sample이라고 부름
- 같은 종류의 분포를 따르지만 서로 고유한 다른 모양의 분포를 가짐
2.10 Two Important Multivariate Distributions
Multinomial
- Multivariate version of Binomial
ex) k개의 다른 색을 까진 공을 항아리에서 꺼낸다고 가정
p=(p1,...,pk),pj≥0,∑j=1kpj=1
- pj: color j인 공을 뽑을 확률
- 공을 n번 뽑고 X=(X1,...,Xk),Xj: color j를 뽑는 시행의 수
- n=∑j=1kXj
- X가 multinomial distribution을 가지면 X∼Multinomial(n,p)

x1!(n−x1)!n!×x2!(n−x1−x2)!(n−x1)!...×xk!(n−x1,...,xk)!(n−x1,...,xk−1)!

Multivariate Normal
- Univariate Normal은 두 개의 파라미터 μ,σ를 가짐
- Multivariate Normal은 μ는 벡터, σ는 matrix Σ를 가짐
- σ 값이 커지면 원의 크기가 커지고 더 퍼진다

Z1,...,Zk∼N(0,1) : independent

- Z가 standard multivariate Normal distribution을 가질 때 Z∼N(0,I)로 표기
- 분산은 1, 각 변수들이 독립이므로 covariance 값은 0
- 0: k개의 0으로 이루어진 벡터, I:k×k identity matrix
- X가 multivariate Normal distribution을 가질 때 X∼N(μ,Σ)로 표기
- Σ=E[(X−μ)(X−μ)T]: Covariance matrix

- ∣Σ∣: Determinant of Σ
- μ: k의 길이를 가지는 벡터, Σ:k×k positive definite matrix
Positive definite matrix
-
고유값(Eigenvalue, λ)이 양수인 대칭 행렬
-
Σ−1: Precision matrix
-
Σ1/2: Square root of Σ
- Symmetric matrix
- Σ=Σ1/2Σ1/2
- Σ−1/2Σ1/2=Σ1/2Σ−1/2=I
- Σ−1/2=(Σ1/2)−1

-
Z=Σ1/2X−μ∼N(0,I),Σ1/2Z∼N(0,(Σ1/2)2),Σ1/2Z+μ∼N(μ,(Σ1/2)2)
-
X=(Xa,Xb) 라고 가정할 때
-
μ=(μa,μb)


-
Λ=Σ−1
-
Λaa=Σaa

3. The Gaussian Distribution [I]










- p(xa,xb)가 가우시안 분포를 가진다면 p(xa∣xb) 또한 가우시안 분포를 가짐
- Random variable X의 분포를 알 때 Y=r(X)인 Y의 분포를 알아내는 것은 중요함
- 간단한 분포를 변환시켜도 복잡한 분포가 나올 수 있기 때문에 어려운 문제일 수 있음
- Discrete → Discrete, Continuous → Discrete, Continuous → Continuous
- Discrete → Continuous는 없는 값을 만들어내야해서 없지 않을까 추정
Change of variables
- Y=r(X): Transformation of X
- 변환 r이 일대일 대응일 때 Y의 PDF를 X의 PDF로 표현할 수 있음



- Multivariate
- r:Rn→Rn

- Inverse function r−1의 Jacobian matrix는 first derivative matrix의 determinant


- Jacobian은 nonlinear/linear 한 space를 linear 한 space로 approximation하는 것



Sum

(X,Y)∈RR×S,Z∈RT
z∈T,Dz:{x∈R,z−x∈S}






- Y=r(X)=logX,x>0,y∈∞
- X=eY
- fY(y)=fX(x)∣dydx∣=e−x⋅ey=e−ey⋅ey

-
Y=r(X)=X2,−1<x<3,0≤y<9
-
0<y<1, -1<x<1
-
Ay=[−y,y]
-
∫−yy1/4dx=(1/2)y
-
1<y<9, 1<x<3
-
x=y
-
fY(y)=fX(x)∣dydx∣=4⋅2⋅y1=8⋅y1
-
r이 증가나 감소함수 일 때 s=r−1

- Z=r(X,Y)일 때 fZ를 찾는 세가지 단계


- x=u,y=u+v
- ∫Dzf(u,v)d(u,v)=∫Dzf(x1,y−x1)d(x1,x2)=∫∫Dzf(x1,y−x1)dx1dx2
