기초 통계에 관한 고찰

강창민·2022년 6월 4일
0

접근 배경

고작 고등학교 확률과 통계 시간에 배운 통계를 제외하면, 다루어 본적이 없던 통계를, 대학교에와서 다시 다루려니 너무 힘이 들어 가장 기초적인 통계학 개념에 대하여 정리해 보고자 한다.


확률 분포의 정의

확률분포는 확률변수가 특정한 값을 가질 확률을 나타내는 함수를 의미한다.

확률변수란, 확률에 따라 변하는 값을 의미한다. 예를 들어, 동전을 무작위로 두 번 던져서 그림 또는 숫자가 나오는 실험(그림 or 숫자가 나올 확률은 각각 1/2임.)에서 발생하는 결과에 특정한 실수 값을 부여하는 변수를 말한다.
그렇다면, 위의 실험에서 확률변수는 0과 1이 될 것이다.

확률 분포는 확률 변수의 종류에 따라 이산확률분포와 연속확률분포로 나누어진다.


연속 확률 분포

연속 확률 분포는 확률 변수가 실수의 집합처럼, 무한개의 경우의 수를 가지는 분포를 말한다.

예를 들어, 0과 1사이의 실수 값이 적혀있는 카드 중에서 내가 정확하게 0.1을 뽑을 확률은 얼마일까?

만약 하나의 카드를 뽑을 확률이 균일한 uniform분포를 가진다고 가정하면 내가 정확하게 0.1을 뽑을 확률은 1/무한대 이므로 0이 될 것이다.

0.1이 아니라 다른 수를 뽑을 확률도 모두 위와 같은 이유로 0이 될 것이다.

따라서 위와 같이 경우의 수가 무한대인 연속 확률 변수의 분포를 설명하려면 특정한 값이 아니라, 특정 구간을 지정하여 확률을 설명해야한다. 가령, 내가 뽑은 카드가 0과 0.5사이의 실수 일 경우 처럼 말이다.


누적 확률 분포

위와 같이 특정 구간의 확률 분포를 서술하면 누적 확률 밀도 함수(OR 누적 확률 분포)라고 하며, 일반적으로 F(x)와 같이 나타낸다. 이 때, 변수 x는 범위의 끝을 나타낸다.

범위의 시작은 일반적으로 -∞ 이다.

  • F(1) : 확률 변수 x가 -∞ <= x <= 1 인 구간에 있을 확률.
  • F(∞) : 확률 변수 x가 -∞ <= x <= ∞ 인 구간에 있을 확률.
x = seq(-10, 10, by = 0.01)
plot(x, pnorm(x=0, mean = 0, sd = 1), type="l")

위와 같은 누적 분포 함수는 다음과 같은 특징을 가진다.

  • F(-∞) = 0
  • F(∞) = 1

확률 밀도 함수

주어진 변량이 정해진 구간 안에 존재할 확률을 나타내는 함수이다.

적분으로 나타낸다.

profile
오늘 그것을 할 수 없다면, 대체 무슨 근거로 내일 그것을 할 수 있다고 생각하는가?

0개의 댓글