Conditional Expectation

김당찬·2022년 12월 11일
0

Conditional Expectations

Measure Theory를 기반으로 한 조건부 기댓값 및 조건부 확률을 정의해보도록 하자. 일반적으로 measure를 다루지 않는 통계학에서는 조건부 확률을 먼저 정의하고, 이후에 조건부 기댓값을 조건부 확률을 이용해 정의하는데 measure를 이용하면 좀 더 엄밀한 정의가 가능하다. 또한, 측도를 기반으로 한 새로운 조건부 기댓값의 정의와 기초통계학에서의 정의가 동치임을 확인해보도록 하자.

Definition

Conditional Expectation

확률공간 (Ω,F,P)(\Omega, \mathcal F, P) 에서 정의된 Random Variable XX가 적분가능(integrable)하다고 하자. 이때 F\mathcal F 의 sub-σ\sigma-field AF\mathcal A\subset \mathcal FXX에 대해 다음과 같이 조건부 기댓값 E(XA)E(X|\mathcal A) 을 정의한다.

Conditional Expectation of XX given A\mathcal A 는 다음 두 조건을 만족하는 a.s. unique한 random variable이다.

  1. E(XA)E(X|\mathcal A)(Ω,A)(R,B)(\Omega,\mathcal A)\to(\mathbb R, \mathcal B) 로의 가측함수이다(i.e. Borel Function).
  2. 모든 AAA\in \mathcal A 에 대해
AE(XA)dP=AXdP\int_A E(X|\mathcal A)dP = \int_A XdP

즉, 일반적으로 정의되는 두 확률변수 사이의 조건부 기댓값과는 다르게 가장 먼저 sub-σ\sigma-field를 이용한 조건부 기댓값이 정의된다. 이를 바탕으로 다음과 같이 조건부 확률 및 두 확률변수 간의 조건부 기댓값을 정의한다.

Conditional Probability

AF\mathcal A\subset F (sub-σ\sigma-field) 가 주어질 때 event BFB\in\mathcal F의 조건부 확률은 다음과 같이 정의한다.

P(BA)=E(IBA)P(B|\mathcal A) = E(I_B|\mathcal A)

여기서 IBI_B는 indicator function을 의미한다.

Conditional Expectation between r.v.

Random variable XX가 위와 같이 주어지고, 추가로 YY(Ω,F,P)(Λ,G)(\Omega,\mathcal F,P)\to(\Lambda,\mathcal G) 로의 가측함수(random variable)로 주어질 때 조건부 기댓값은 다음과 같이 정의된다.

E(X    Y)=E(Xσ(Y))=E(XY1(G))E(X\;|\;Y) = E(X|\sigma(Y)) = E(X|Y^{-1}(\mathcal G))

보조정리

가측함수 Y:(Ω,F)(Λ,G)Y:(\Omega,\mathcal F)\to (\Lambda,\mathcal G)와 실함수 Z:(Ω,F)RkZ:(\Omega,\mathcal F)\to \mathbb R^k 가 주어질 때, ZZ(Ω,σ(Y))(Rk,Bk)(\Omega,\sigma(Y))\to(\mathbb R^k,\mathcal B^k) 로의 가측함수일 필요충분조건은 가측함수 h:(Λ,G)(Rk,Bk)h:(\Lambda,\mathcal G)\to (\mathbb R^k,\mathcal B^k) 가 존재해 Z=hYZ=h\circ Y 인 것이다.

위 보조정리를 이용하면 앞서 정의한 두 확률변수 간의 조건부 기댓값에서 보조정리의 hh에 해당하는 borel function이

h(y)=E(XY=y)h(y) = E(X|Y=y)

로 주어짐을 알 수 있다.

Conditional probability density function(p.d.f.)

Random vector (X,Y)(X,Y)와 이것의 joint p.d.f. f(x,y)f(x,y)가 product measure ν×λ\nu\times\lambda 에 대해 주어진다고 하자. 이때 Y=yY=y가 주어졌을 때 XX의 조건부 확률밀도함수는 다음과 같의 정의된다.

fXY(xy)=f(x,y)fY(y)f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}

여기서 fYf_Y는 marginal p.d.f.를 의미한다. 즉, fY=f(x,y)dν(x)f_Y = \int f(x,y)d\nu(x) 이다.

조건부 기댓값의 다른 표현

Definition

Random variable X,YX,Y 가 각각 n,mn,m 차원이고 joint p.d.f.가 ν×λ\nu\times\lambda 에 대해 주어진다고 하자. 이때 측도 ν,λ\nu,\lambda는 각각 (Rn,Bn),(Rm,Bm)(\mathbb R^n,\mathcal B^n),(\mathbb R^m,\mathcal B^m) 에서 σ\sigma-finite하다. 어떤 함수 g(x,y)g(x,y)Rn+m\mathbb R^{n+m} 에서 borel이고 Eg(X,Y)<E|g(X,Y)|<\infty 일때, 다음이 성립한다.

E[g(X,Y)Y]=g(x,Y)f(x,Y)dν(x)f(x,Y)dν(x)=g(x,Y)fXY(xY)dν(x)      a.s.E[g(X,Y)|Y] = \frac{\int g(x,Y)f(x,Y)d\nu(x)}{\int f(x,Y)d\nu(x)}\\ = \int g(x,Y)f_{X|Y}(x|Y)d\nu(x)\;\;\;\text{a.s.}

즉, 조건부 기댓값을 조건부 확률밀도함수를 이용해 계산한다는 기초통계학의 내용이다. 다만, 앞서 조건부 기댓값을 새로운 borel function으로 정의했기 때문에, 새로운 정의와 여기서의 정의가 동치임을 확인하기 위해서는 증명 과정이 필요하다.

Proof

위 식의 g(x,Y)fXY(xY)dν(x)\int g(x,Y)f_{X|Y}(x|Y)d\nu(x) 부분을 h(Y)h(Y) 로 정의하면, 이는 marginal integration의 형태이므로 Fubini's Theorem에 의해 h(Y)h(Y) 도 borel function이다.

또한, 처음 정의한 조건부 기댓값의 정의로부터 E[g(X,Y)Y]=E[g(X,Y)Y1(Bm)]E[g(X,Y)|Y] = E[g(X,Y)|Y^{-1}(\mathcal B^m)] 이므로 임의의 BBmB\in\mathcal B^m 에 대해 조건부 기댓값 정의의 성질 (2), 즉 Y1(B)h(Y)dP=Y1(B)g(X,Y)dP\int_{Y^{-1}(B)}h(Y)dP = \int_{Y^{-1}(B)}g(X,Y)dP 임을 보이면 우변이 좌변과 동치임을 보일 수 있다.

Y1(B)h(Y)dP=Y1(B)hY(y)dP\int_{Y^{-1}(B)}h(Y)dP = \int_{Y^{-1}(B)}h\circ Y(y)dP

로 두면, distribution PYP_Y 의 정의로부터

Y1(B)h(Y)dP=Bh(y)dPY\int_{Y^{-1}(B)}h(Y)dP = \int_Bh(y)dP_Y

가 된다. 또한, YY의 확률밀도함수는 Radon-Nikodym derivative fY=dPY/dλf_Y=dP_Y/d\lambda 로 주어지므로

Y1(B)h(Y)dP=Bg(x,Y)fXY(xY)dν(x)fY(x)dλ(y)\int_{Y^{-1}(B)}h(Y)dP = \int_B \int g(x,Y)f_{X|Y}(x|Y)d\nu(x) f_Y(x)d\lambda(y)

로 주어진다. 이때 conditional p.d.f.의 정의로부터

Y1(B)h(Y)dP=Bg(x,Y)f(x,y)dν(x)dλ(y)\int_{Y^{-1}(B)}h(Y)dP = \int_B\int g(x,Y)f(x,y)d\nu(x)d\lambda(y)

가 되고, Fubini의 정리로부터

Y1(B)h(Y)dP=Rn×Bg(x,y)f(x,y)d(ν×λ)\int_{Y^{-1}(B)}h(Y)dP = \int_{\mathbb R^n\times B}g(x,y)f(x,y)d(\nu\times\lambda)

가 된다. 마찬가지로 joint p.d.f.의 Radon-Nikodym 정의로부터

Y1(B)h(Y)dP=Rn×Bg(x,y)PX,Y\int_{Y^{-1}(B)}h(Y)dP = \int_{\mathbb R^n\times B}g(x,y)P_{X,Y}

이고, distribution의 정의로부터 X1(Rn)=ΩX^{-1}(\mathbb R^n) = \Omega 이므로

Y1(B)h(Y)dP=Y1(B)g(X,Y)dP\int_{Y^{-1}(B)}h(Y)dP = \int_{Y^{-1}(B)} g(X,Y)dP

가 성립한다.

Reference

  • Mathematical Statistics, Jun Shao.
profile
블로그 이사했습니다 https://ddangchani.github.io

0개의 댓글