[ML스터디] - ch4. 머신러닝을 위한 통계학

Dreamer ·2023년 5월 28일
0

Machine Learning

목록 보기
3/3

4.2. 확률 변수와 확률 분포

4.2.1. 확률 변수

  • 확률(probablity) : 어떤 사건이 일어날 가능성을 수치화시킨 것을 의미함.
  • 확률의 성질
    1. 모든 확률은 0과 1 사이에 존재한다.
    1. 발생 가능한 모든 사건의 확률을 더하면 1이 된다.
    1. 동시에 발생할 수 없는 사건들에 대해 각 사건의 합의 확률은 개별 확률이 일어날 확률의 합과 같다.
  • 확률 변수(random variable) : 결괏값이 확률적으로 정해지는 변수를 의미함. 확률 변수는 확률적 상황에 따라 달라질 수 있는 변수.
  • 상수(constant) : 항상 값이 고정된 수

4.2.2. 확률 분포

  • 확률 분포(probablilty distribution)는 확률 변수가 특정값을 가질 확률의 함수를 의미함. 확률 분포에 기반해서 얻어짐.
  • 이산 확률 변수(discrete random variable) : 확률 변수가 가질 수 있는 값을 '셀 수 있다'는 의미, 예로, 주사위를 던져서 나올 수 있는 눈의 개수는 6가지. 이산 확률 분포(discrete probability distribution) 는 이산 확률 변수의 확률 분포를 의미함.
  • 확률 질량 함수(probability mass function) : 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수. 즉, 확률 질량 함수란 이산 확률 변수가 특정값을 가질 확률을 의미함. 즉 주사위를 던져 나오는 수가 1일 확률을 의미함(1/6)
  • 연속 확률 변수(continuous random variable) : 확률 변수가 가질 수 있는 값의 개수를 '셀 수 없다'는 의미
  • 연속 확률 분포 (continuous probability distribution) : 연속 확률 변수의 확률 분포를 의미함.
  • 확률 밀도 함수 (probability denstiy function) : 연속 확률 변수의 분포를 나타내는 함수, 특정 값을 가질 확률 = 확률 밀도 함수의 특정 구간에 포함된다고 표현됨.
  • 누적 분포 함수 (cumulative distribution function) : 주어진 확률 변수가 특정값보다 작거나 같은 확률을 나타내는 함수.
  • 결합 확률 밀도 함수(joint probability denstiy function) : 확률 변수 여러개를 함께 고려하는 확률 분포. 즉, 확률 변수가 독립인 경우, 해당 사건이 동시에 일어날 확률은 각각의 확률 변수의 확률 밀도 함수를 곱하는 것과 같음.
  • 독립 항등 분포(independent and identically distibuted) : 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수통계적으로 독립이고, 동일한 확률 분포를 따르는 것을 의미함.

4.4. 평균과 분산

  • 분산을 구할 때 편차의 합을 n으로 나누는 것이 아니라 n-1로 나누는데 이는 자유도와 관련있음.
  • 자유도(degree of freedom) : 변수가 얼마나 자유로운지를 나타내는 것으로 분산을 구할 때 이미 표본 평균을 알고 있어야 구할 수 있으므로, 이미 표본 평균은 구해져 있는 상태이므로 n-1로 나눔.
  • 표준편차 : 분산을 구하는 과정에서 제곱함으로써, 커진 결과를 다시 원래 단위로 조정하는 과정

4.5. 상관관계

4.5.1. 공분산

  • 공분산 : 확률 변수의 상관관계를 나타내는 값으로, 공분산이 0보다 크면, 두 확률변수는 양의 상관관계를 가지고, 음수이면, 음의 상관관계를, 만약 0 이라면 상관관계가 없다고 본다.
  • 확률 변수 x와 y가 서로 독립일 때, 둘은 상관관계가 없다고 본다. 예로, 주사위를 던져서 1이 나올 확률과 5가 나올 확률은 독립 사건이므로 둘은 상관관계 존재하지 않음.

4.5.1 상관계수

  • 변수 간 단위가 다르면 공분산은 비교가 어려움.
  • 이를 보완하기 위해 나온 것이 상관계수
  • 상관계수는 -1에서 1 사이를 가지며, 공분산을 각 변수의 표준 편차로 나눔.

4.6. 균일 분포

  • 균일 분포(uniform distibution) : 특정 범위 내에서 확률 분포가 균일한 분포를 의미함. 균일 분포는 이산형 분포, 연속형 분포 모두 가능.
  • 예로, 주사위를 던져 나오는 눈의 개수가 이산형 균일 분포를 따른다고 볼 수 있음
  • 연속형 균일 분포 : 확률 변수의 범위가 연속형.

quiz

    1. 두 개의 확률 변수 X, Y가 존재할 때, X는 0과 10사이의 균일 분포를 따르고, Y는 X의 값에 2를 더한 값을 가진다.
  • 1-1. X의 평균과 분산을 계산하시오.
  • 1-2. Y의 평균과 분산을 계산하시오.
  • 1.3. X와 Y의 상관 관계를 설명하시오.
    1. 모집단의 크기가 무한대인 경우, 이 모집단에서 무작위로 선택된 100개의 표본을 가지고 있다. 이 표본의 평균은 5이고 분산은 4이다. 이 정보를 바탕으로 다음의 질문에 답하라.
  • 2.1. 이 표본의 평균과 분산이 모집단의 평균과 분산을 추정하는데 어떻게 사용될 수 있는가?

  • 2.2. 이 표본을 통해 얻을 수 있는 모집단에 대한 정보는 무엇인가?

    1. 균일 분포에 대해 다음의 질문에 답하시오.
  • 3.1. 균일 분포의 확률 밀도 함수를 설명하라.

  • 3.2. 균일 분포가 자주 사용되는 상황은 무엇인지 예를 들어 설명하라.

answer

  • 1-1. X의 평균과 분산: 균일 분포의 경우, 평균은 (a+b)/2이며, 분산은 (b-a)^2/12입니다. 따라서 X의 평균은 (0+10)/2 = 5이고, 분산은 (10-0)^2/12 = 100/12 = 8.33입니다.

  • 1.2. Y = X + 2이므로, Y의 평균은 X의 평균에 2를 더한 값이고, 분산은 X의 분산과 같습니다. 따라서, Y의 평균은 5 + 2 = 7이고, 분산은 8.33입니다.

  • 1-3. X와 Y는 완벽한 선형 관계를 가지므로, 그들의 상관 계수는 1입니다.

  • 2.1. 표본의 평균(표본 평균)은 모집단의 평균(모평균)을 추정하는 데 사용될 수 있습니다. 이 경우, 모평균은 표본 평균인 5라고 추정할 수 있습니다. 표본의 분산은 모집단의 분산을 추정하는데 사용됩니다. 이 경우, 모집단의 분산은 표본의 분산인 4라고 추정할 수 있습니다.

  • 2.2. 이 표본을 통해 얻을 수 있는 모집단에 대한 정보는 모집단의 평균이 5라는 것과 분산이 4라는 것입니다. 그러나 이는 추정값이며, 실제 모집단의 통계치가 정확하게 이 값일 것이라는 보장은 없습니다.

  • 3.1. 균일 분포의 확률 밀도 함수는 일정한 구간 [a, b]에서 동일한 값을 가집니다. 이 구간에서의 값은 1/(b-a)이며, 이 외의 구간에서는 0입니다. 이는 모든 사건이 동일한 확률을 가짐을 의미합니다.

  • 3.2. 균일 분포는 모든 가능한 결과가 동일한 확률로 발생하는 시나리오에 사용됩니다. 예를 들어, 공정한 주사위를 던지는 경우 각 면(1~6)이 나올 확률은 모두 동일하므로 이는 균일 분포를 따릅니다.

profile
To be a changer who can overturn world

0개의 댓글