목차
6.1 서론
통계학의 목적: 모집단으로부터 추출한 표본에 포함 되어있는 정보에 근거하여 모집단에 관해 추론하는 것
진실로 유용한 추론은 우수한 정도와 관련된 측도를 동반해야함.
지금까지 논의된 내용 중 어느 것도 이번에 배울 확률변수들의 함수의 분포에 관한 연구만큼 통계학의 목적에 밀접하지 않음 -> 확률변수의 함수의 분포를 연구하는 것은 통계학의 목적에 가장 부합하다.
모평균 μ를 추정하는 문제를 생각해 보자.
n개의 관측값들 y1,y2,…yn의 확률표본을 모집단에서 추출하여
y=ny1+y2+…+yn=n1Σi=1nyi
를 μ의 추정값으로 사용하자.
추정값의 우수성에 대한 측도는 추정값과 추정하려는 모수 간의 차이(yˉ−μ)인 추정오차(error of estimation)이다.
Y1,Y2,…Yn이 확률변수이기 때문에 Y도 확률변수이고 n개의 확률변수 Y1,Y2,…Yn의 함수이다.
그러므로 추정오차가 특정한 값, 예를들어 B보다 작을 것이라고 확신할 수 없다. 하지만 추정량 Y_bar의 확률분포를 결정할 수 있다면, B 이하일 확률을 결정할 수 있다.
n개의 확률변수의 함수에 대한 확률분포를 결정하기 위해 확률변수 자신들의 결합확률분포(Joint Probability Distribution)을 구해야만 한다.
- 관측값들이 확률표본추출을 통해 얻어진다고 가정한다. (2.12절 정의)
3.7절 >> 유한모집단에서의 확률표본추출(비복원추출)은 시행들 간의 종속적인 결과를 초래하지만 모집단이 표본의 크기에 비해 크면 이 시행들은 독립이다.
이제 책의 나머지 전체에서 모집단은 표본 크기에 비해 크고, 따라서 확률표본추출로 얻어진 확률변수들은 서로 독립이라고 가정한다.
내 생각
추정 오차가 작으면 작을 수록 모집단과 비슷해지는 것.
그런 추정오차를 알기위해 확률변수들의 함수의 분포를 결정해야함(알아야한다).
그러므로 뒤에 나올 방법들을 통해 확률변수들의 함수의 분포를 구하는 듯.
이산인 경우 결합확률함수
p(y1,y2,…,yn)=p(y1)p(y2)⋯p(yn).
연속인 경우 결합확률함수
f(y1,y2,…,yn)=f(y1)f(y2)⋯f(yn).
6.2 확률변수들의 함수의 확률분포 구하기
이제 확률변수들의 함수에 대한 확률분포를 구하는 방법 3가지와 확률변수들의 몇 가지 함수들에 대한 결합분포를 구하는 방법 4가지를 알아보려고 합니다.
이들 모두 확률변수들의 함수의 분포를 구하는데 사용 가능합니다.
하지만 이 방법들 중 하나는 다른 방법보다 더 간단하게 유도가 가능해서 가장 좋은 방법은 어디에 사용하냐에 따라 다릅니다.
그러므로 아래의 3가지 방법은 모두 알고있어야 합니다.
이제 확률변수 Y1,Y2,…,Yn의 함수를 U로 나타내고
U(Y1,Y2,…,Yn)라고 생각하겠습니다.
각 방법들은 아래에 더 자세하게 설명할 예정이니, "그냥 아 그렇구나"하고 넘어가도 됩니다.
대충 이런 방식이라고만 알아두면 이해하기 편하실 듯 합니다.
-
분포함수법
- Y들의 분포가 연속일 때 사용됩니다.
- U에 대한 분포함수 FU(u)=P(U≤u)를 먼저 구합니다.(5장)
1. 이를 위해, U≤u인 y1,y2,…,yn 공간에 해당하는 영역을 찾고,
2. 이 영역에 대해 f(y1,y2,…,yn)을 적분^1하여 P(U≤u)를 구해줍니다.
- U의 밀도함수는 FU(u)를 미분하여 구합니다.
-
변수변환법
- 만약 확률변수 Y의 밀도함수를 알고 있다면,
- 증가함수이거나 감소함수인 h(y)에 대해 U=h(Y)의 밀도함수에 대한 일반적인 식을 얻을 수 있습니다.
- 만약 Y1,Y2가 이변량 분포를 가진다면,
- 먼저 설명한 일변량 결과를 이용하여 Y1과 U=h(Y1,Y2)의 결합밀도함수를 구할 수 있습니다.
- y1에 대해 적분하여 구하고자 하는 U의 주변확률밀도함수를 구한다.
-
적률생성함수법
"두 확률변수가 동일한 적률생성함수(mgf)를 가지면, 두 확률변수는 동일한 확률분포를 갖는다"
라는 정리 6.1의 유일성 정리에 근거를 두고 있습니다. 이 정리는 아래에 나오니 인지하고 넘어가주세요.
- U의 적률생성함수를 구하고 일반적인 이산확률변수 mgf, 연속확률변수 mgf와 비교해서 같은지 보는겁니다.
- 만약 U의 mgf를 구했는데 eλ(et−1)이 나온다면 뭘까요?
바로 포아송 분포입니다. ^~^
이렇게 우리가 배웠던 mgf와 비교해서 같은 것을 찾아내는 방식이라고 할 수 있겠습니다.
이제는 조금 더 자세하게 한번 알아보려고 합니다. 각 방법을 알려드리고 예제도 같이 풀어보면서 이해하면 좋을 것 같네요.
6.3 분포함수법(The Method of Distribution Function)
이해를 돕기 위해 일변량의 예로 분포함수법을 설명하겠습니다.
만일 Y가 pdf f(x)를 갖고, U가 Y의 어떤 함수^2이면,
FU(u)=P(U≤u)
를
영역에서 f(y)를 적분하여 직접 구할 수 있다.
라고 하는데 저는 개인적으로는 "어떤 함수"가 무엇을 의미하는지 잘 모르겠지만 일단 넘어가고 예제를 풀어보겠습니다.
설탕을 정제하는 어느 공장에서 매일 순수한 설탕을 1톤까지 생산할 수 있지만, 기계 고장과 또 다른 조업 단축 등으로 인해 실제 생산되는 양 Y는 확률변수이다. Y는 다음 밀도함수를 갖는다고 하자.
f(y)={2y,0≤y≤10,그외
이 회사는 정제된 설탕에 대해 톤당 $300을 받지만, 매일 $100씩 고정 경상경비가 지출된다. 그러므로 하루의 이익은 $100 단위로 U=3Y−1이다. U의 확률밀도함수를 구하라.
분포함수법을 적용하기 위해, 다음을 구해야한다.
FU(u)=P(U≤u)=P(3Y−1≤u)=P(Y≤3u+1)
만일 u<−1이면, 3(u+1)<0 이므로,
FU(u)=P(Y≤(u+1)/3)=0이다.
또한 만일 u>2이면, 3(u+1)>1 이고,
FU(u)=P(Y≤(u+1)/3)=1이다.
그러나 만일 −1≤u≤2이면,
확률은 다음과 같이 f(y)의 적분으로 나타낼 수 있다.
P(Y≤3u+1)=∫−∞(u+1)/3f(y)dy
f(y)의 위치에는 위에서 나왔던 2y를 대입해주면 됩니다.
쉽죠?
나머지 계산을 해봅시다. 따라서 풀어보시면 좋을 듯 합니다.
∫−∞(u+1)/32ydy=[y2]−∞(u+1)/3=(3u+1)2
입니다.
자 여기서 주의해야할 점이 하나 있는데요.
처음에 2y는 0≤y≤1라는 조건이 있었죠. 기억하시나요?
이건 무슨 범위일까요?
조금만 생각해보면 0≤y≤1는 f(y)의 범위인 것을 알 수 있습니다.
그쵸?
그럼 위에서 "u<−1이면, "은 왜 해준걸까요?
지금 우리는 Y가 아니라 U를 구하고 있습니다.
그러므로 Y가 아닌 U의 범위로 변환 해줘야합니다.
이해되셨나요? 따라서 y가 0,1일 때 u의 범위를 구해주었던거죠.
다시 돌아와서 확률변수 U의 분포함수는
FU(u)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧0,u<−1(3u+1)2,−1≤u≤21,u>2
인데 이해되시나요?
우리가 적분으로 구했던 (3u+1)2가 변환해준 U의 범위에 들어가고 나머지는 0,1이 나오게 됩니다.
6.7 순서통계량