[수리통계학] CH 6. 확률변수의 함수

Dev Error Oper·2023년 10월 28일
0

수리통계학

목록 보기
1/2

목차

6.1 서론


통계학의 목적: 모집단으로부터 추출한 표본에 포함 되어있는 정보에 근거하여 모집단에 관해 추론하는 것

진실로 유용한 추론은 우수한 정도와 관련된 측도를 동반해야함.
지금까지 논의된 내용 중 어느 것도 이번에 배울 확률변수들의 함수의 분포에 관한 연구만큼 통계학의 목적에 밀접하지 않음 -> 확률변수의 함수의 분포를 연구하는 것은 통계학의 목적에 가장 부합하다.

모평균 μ\mu를 추정하는 문제를 생각해 보자.
nn개의 관측값들 y1,y2,yny_1,\,y_2,\ldots\,y_n의 확률표본을 모집단에서 추출하여

y=y1+y2++ynn=1nΣi=1nyi\overline{y}\,=\,\frac{y_1+y_2+\ldots+y_n}{n} = \frac{1}{n}\Sigma_{i=1}^{n}y_i

μ\mu의 추정값으로 사용하자.
추정값의 우수성에 대한 측도는 추정값과 추정하려는 모수 간의 차이(yˉμ\bar{y} - \mu)인 추정오차(error of estimation)이다.
Y1,Y2,YnY_1,\,Y_2,\ldots\,Y_n이 확률변수이기 때문에 Y\overline{Y}도 확률변수이고 n개의 확률변수 Y1,Y2,YnY_1,\,Y_2,\ldots\,Y_n의 함수이다.
그러므로 추정오차가 특정한 값, 예를들어 B보다 작을 것이라고 확신할 수 없다. 하지만 추정량 Y_bar의 확률분포를 결정할 수 있다면, B 이하일 확률을 결정할 수 있다.
nn개의 확률변수의 함수에 대한 확률분포를 결정하기 위해 확률변수 자신들의 결합확률분포(Joint Probability Distribution)을 구해야만 한다.

  • 관측값들이 확률표본추출을 통해 얻어진다고 가정한다. (2.12절 정의)

3.7절 >> 유한모집단에서의 확률표본추출(비복원추출)은 시행들 간의 종속적인 결과를 초래하지만 모집단이 표본의 크기에 비해 크면 이 시행들은 독립이다.
이제 책의 나머지 전체에서 모집단은 표본 크기에 비해 크고, 따라서 확률표본추출로 얻어진 확률변수들은 서로 독립이라고 가정한다.

내 생각

추정 오차가 작으면 작을 수록 모집단과 비슷해지는 것.
그런 추정오차를 알기위해 확률변수들의 함수의 분포를 결정해야함(알아야한다).
그러므로 뒤에 나올 방법들을 통해 확률변수들의 함수의 분포를 구하는 듯.

이산인 경우 결합확률함수

p(y1,y2,,yn)=p(y1)p(y2)p(yn).p(y_1, y_2, \ldots, y_n) = p(y_1)p(y_2)\cdots p(y_n).

연속인 경우 결합확률함수

f(y1,y2,,yn)=f(y1)f(y2)f(yn).f(y_1,\, y_2,\, \ldots,\,y_n) = f(y_1)f(y_2)\cdots f(y_n).

6.2 확률변수들의 함수의 확률분포 구하기


이제 확률변수들의 함수에 대한 확률분포를 구하는 방법 3가지확률변수들의 몇 가지 함수들에 대한 결합분포를 구하는 방법 4가지를 알아보려고 합니다.

이들 모두 확률변수들의 함수의 분포를 구하는데 사용 가능합니다.
하지만 이 방법들 중 하나는 다른 방법보다 더 간단하게 유도가 가능해서 가장 좋은 방법은 어디에 사용하냐에 따라 다릅니다.
그러므로 아래의 3가지 방법은 모두 알고있어야 합니다.

이제 확률변수 Y1,Y2,,YnY_1,\,Y_2,\,\ldots,Y_n의 함수를 UU로 나타내고
U(Y1,Y2,,Yn)U(Y_1,\,Y_2,\,\ldots,Y_n)라고 생각하겠습니다.
각 방법들은 아래에 더 자세하게 설명할 예정이니, "그냥 아 그렇구나"하고 넘어가도 됩니다.
대충 이런 방식이라고만 알아두면 이해하기 편하실 듯 합니다.

  1. 분포함수법

    • YY들의 분포가 연속일 때 사용됩니다.
    • UU에 대한 분포함수 FU(u)=P(Uu)F_U(u)\,=\,P(U \leq u)를 먼저 구합니다.(5장)
      1. 이를 위해, UuU \leq uy1,y2,,yny_1,\,y_2,\ldots,\,y_n 공간에 해당하는 영역을 찾고,
      2. 이 영역에 대해 f(y1,y2,,yn)f(y_1,\,y_2,\ldots,\,y_n)을 적분^1하여 P(Uu)P(U \leq u)를 구해줍니다.
    • UU의 밀도함수는 FU(u)F_U(u)를 미분하여 구합니다.
  2. 변수변환법

    • 만약 확률변수 YY의 밀도함수를 알고 있다면,
    • 증가함수이거나 감소함수인 h(y)h(y)에 대해 U=h(Y)\,U=h(Y)의 밀도함수에 대한 일반적인 식을 얻을 수 있습니다.
    • 만약 Y1,Y2Y_1,\,Y_2가 이변량 분포를 가진다면,
    • 먼저 설명한 일변량 결과를 이용하여 Y1Y_1U=h(Y1,Y2)\,U=h(Y_1,\,Y_2)의 결합밀도함수를 구할 수 있습니다.
    • y1y1에 대해 적분하여 구하고자 하는 UU의 주변확률밀도함수를 구한다.
  3. 적률생성함수법

    "두 확률변수가 동일한 적률생성함수(mgf)를 가지면, 두 확률변수는 동일한 확률분포를 갖는다"

    라는 정리 6.1의 유일성 정리에 근거를 두고 있습니다. 이 정리는 아래에 나오니 인지하고 넘어가주세요.

    • UU의 적률생성함수를 구하고 일반적인 이산확률변수 mgf, 연속확률변수 mgf와 비교해서 같은지 보는겁니다.
    • 만약 UU의 mgf를 구했는데 eλ(et1)e^{\lambda(e^t-1)}이 나온다면 뭘까요?

      바로 포아송 분포입니다. ^~^

이렇게 우리가 배웠던 mgf와 비교해서 같은 것을 찾아내는 방식이라고 할 수 있겠습니다.


이제는 조금 더 자세하게 한번 알아보려고 합니다. 각 방법을 알려드리고 예제도 같이 풀어보면서 이해하면 좋을 것 같네요.

6.3 분포함수법(The Method of Distribution Function)

이해를 돕기 위해 일변량의 예로 분포함수법을 설명하겠습니다.

만일 YY가 pdf f(x)f(x)를 갖고, UUYY의 어떤 함수^2이면,

FU(u)=P(Uu)F_U(u)\,=\,P(U \leq u)

UuU \leq u

영역에서 f(y)f(y)를 적분하여 직접 구할 수 있다.

라고 하는데 저는 개인적으로는 "어떤 함수"가 무엇을 의미하는지 잘 모르겠지만 일단 넘어가고 예제를 풀어보겠습니다.

설탕을 정제하는 어느 공장에서 매일 순수한 설탕을 1톤까지 생산할 수 있지만, 기계 고장과 또 다른 조업 단축 등으로 인해 실제 생산되는 양 YY는 확률변수이다. YY는 다음 밀도함수를 갖는다고 하자.

f(y)={2y,    0y10,      f(y)= \begin{cases} 2y,\;\;0\leq y \leq 1\\ 0,\;\;그\;외 \end{cases}

이 회사는 정제된 설탕에 대해 톤당 $300을 받지만, 매일 $100씩 고정 경상경비가 지출된다. 그러므로 하루의 이익은 $100 단위로 U=3Y1U=3Y-1이다. UU의 확률밀도함수를 구하라.

분포함수법을 적용하기 위해, 다음을 구해야한다.

FU(u)=P(Uu)=P(3Y1u)=P(Yu+13)F_U(u) = P(U \leq u) = P(3Y-1 \leq u) = P\left(Y \leq \frac{u+1}{3}\right)

만일 u<1u < -1이면, (u+1)3<0\frac{(u+1)}{3} < 0 이므로,
FU(u)=P(Y(u+1)/3)=0F_U(u) = P(Y\leq (u+1)/3)=0이다.

또한 만일 u>2u > 2이면, (u+1)3>1\frac{(u+1)}{3} > 1 이고,
FU(u)=P(Y(u+1)/3)=1F_U(u) = P(Y\leq (u+1)/3)=1이다.
그러나 만일 1u2-1\leq u \leq 2이면,
확률은 다음과 같이 f(y)f(y)의 적분으로 나타낼 수 있다.

P(Yu+13)  =  (u+1)/3f(y)dyP\left(Y \leq \frac{u+1}{3}\right)\;=\;\int_{-\infin}^{(u+1)/3}f(y)dy

f(y)f(y)의 위치에는 위에서 나왔던 2y2y를 대입해주면 됩니다.

쉽죠?

나머지 계산을 해봅시다. 따라서 풀어보시면 좋을 듯 합니다.

(u+1)/32ydy  =  [y2](u+1)/3  =  (u+13)2\int_{-\infin}^{(u+1)/3}2ydy\;=\; [y^2]_{-\infin}^{(u+1)/3}\;=\; \left(\frac{u+1}{3}\right)^2

입니다.
자 여기서 주의해야할 점이 하나 있는데요.
처음에 2y2y0y10\leq y \leq 1라는 조건이 있었죠. 기억하시나요?
이건 무슨 범위일까요?
조금만 생각해보면 0y10\leq y \leq 1f(y)f(y)의 범위인 것을 알 수 있습니다.
그쵸?

그럼 위에서 "u<1u < -1이면, "은 왜 해준걸까요?
지금 우리는 YY가 아니라 UU를 구하고 있습니다.
그러므로 YY가 아닌 UU의 범위로 변환 해줘야합니다.
이해되셨나요? 따라서 yy0,10, 1일 때 uu의 범위를 구해주었던거죠.

다시 돌아와서 확률변수 UU의 분포함수는

FU(u)={  0,            u<1(u+13)2,    1u2  1,            u>2F_U(u)\,= \begin{cases} \;0,\;\;\qquad\;\;\;\;u < -1\\ \bigg(\Large\frac{u+1}{3}\bigg)^2\normalsize,\;\;-1 \leq u \leq 2\\ \;1,\;\;\qquad\;\;\;\;u > 2 \end{cases}

인데 이해되시나요?
우리가 적분으로 구했던 (u+13)2\left(\frac{u+1}{3}\right)^2가 변환해준 UU의 범위에 들어가고 나머지는 0,10, 1이 나오게 됩니다.

6.7 순서통계량

profile
개발자는 에러입니다.

0개의 댓글