-
확률
- 발생가능한 모든 사건들의 집합 표본공간에서 표본공간의 부분집한인 특정 사건 A가 발생할 수 있는 비율을 나타내는 값
- 0 ~ 1 사이의 값
- 가능한 모든 사건의 확률의 합은 항상 1이다.
-
조건부 확률
- 특정 사건 A가 발생했다는 것이 사실이라는 전제하에 또 다른 사건 B가 발생할 확률을 나타낸 값

-
독립사건과 배반사건
- 독립사건: 서로에게 영향을 주지 않는 두 개의 사건을 의미한다.

- 배반사건: 두 사건 A와 B에 대하여 교집합, 즉 공통된 부분이 없는 경우를 의미한다.

-
확률변수와 확률분포 그리고 확률변수
- 확률변수
- 무작위 실험을 했을때 특정 확률로 발생하는 각각의 결과를 수치적 값으로 표현하는 변수를 의미한다.
- 확률분포
- 확률변수의 모든 값과 그에 대응하는 확률이 어떻게 분포하고 있는지를 의미한다.
- 이산확률분포의 확률함수는 '확률질량함수', 연속확률분포의 확률함수는 '확률밀도함수'
-
이산확률분포
- 베르누이 분포
- 확률변수 X가 취할 수 있는 값이 두 개인 경우로 일반적으로 한 번의 시행을 할때 성공과 실패로 나눌 수 있는 성공할 확률이 p인 분포를 의미한다.

- 이항 분포
- n번의 베르누이 시행에서 k번 성공할 확률의 분포를 의미한다.

- 기하 분포
- 성공 확률이 p인 베르누이 시행에서 처음으로 성공이 나올 때까지 k번 실패할 확률의 분포를 의미한다.

- 다항 분포
- 이항 분포를 확장한 개념으로, n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률의 분포를 의미한다.

- 포아송 분포
- 단위 시간 또는 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수에 대한 확률분포를 의미한다.

- 이산확률변수
- 확률변수가 취할 수 있는 실수 값의 수를 셀 수 있는 변수를 의미한다.

-
연속확률분포
- 균일 분포
- 연속형 확률변수인 X가 취할 수 있는 모든 값에 대하여 같은 확률을 갖고 있는 분포를 의미한다.

- 정규 분포
- 가장 대표적인 연속형 확률분포 중 하나로 평균이 𝜇이고, 표준편차가 𝜎인 분포를 의미한다.

- t-분포
- 자유도가 n인 t 분포는 표준정규분포와 마찬가지로 평균이 0이고 좌우가 대칭인 종 모양의 그래프지만 정규분포보다 두꺼운 꼬리를 갖는다.
- 자유가 커질수록 t 분포는 표준정규분포에 가까워진다.
- 카이제곱 분포
- 표준정규분포를 따르는 확률변수 Z1, Z2, ..., Zn의 제곱의 합 X는 자유도가 n인 카이제곱 분포를 따른다.
- 모평균과 모분산을 모르는 두 개 이상의 집단 간 동질성 검정 또는 모분산 검정을 위해 활용된다.

- F 분포
- 서로 독립인 두 카이제곱 분포를 따르는 확률변수 V1, V2를 각각의 자유도로 나누었을 때 서로의 비율 X는 자유가 k1, k2인 F분포를 따른다.
- 등분산 검정 및 분산분석을 위해 활용된다.

- 연속확률변수
- 확률변수가 취할 수 있는 실수 값이 어떤 특정구간 전체에 해당하여 그 수를 셀 수 없는 변수를 연속확률변수라 한다.
- 확률밀도함수의 아래 면적이 확률을 의미한다.

-
기댓값, 분산, 표준편차
-
기댓값
- 특정 사건이 시행되었을때 확률변수 X가 취할 수 있는 값의 평균 값을 의미한다.
-
분산
- 데이터들이 중심에서 얼마나 떨어져 있는지를 알아보기 위한 측도이다.
- 확률변수의 분산: 확률변수가 취할 수 있는 값들이 그 중심(모평균)에서 얼마나 떨어져 있는지를 측정하는 측도이다.
-
표준편차
- 자료의 산포도를 나타내는 수치
- 분산의 양의 제곱근으로 정의된다.
-
첨도(kurtosis)
- 확률분포의 뾰족한 정도를 나타내는 측도이다.
- 값이 3에 가까울수록 정규분포 모양을 갖는다.
-
왜도(Skewness)
- 확률분포의 비대칭 정도를 나타내는 측도이다.
- 왜도값이 0인 경우에는 정규분포와 유사한 모습으로 평균, 중앙값, 최빈값이 모두 같다.
-
공분산(Covarience)
- 두 확률변수 X, Y의 상관 정도를 나타내는 값

-
상관계수(Correlation)
- -1과 1 사이의 값을 가지며 공분산을 X의 표준편차와 Y의 표준편차 모두로 나눈 값이다.
