통계 확률, 확률변수, 이산형 확률분포 등 - 3월 29일

조준수·2023년 3월 29일
0

기초 1~2

Part 08. 통계 01_Introduce

  1. 기술통계학
    데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론

  2. 추론통계학
    모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

1장 02데이터의 이해_

  1. 변수(Variable)
  • 조사 목적에 따라 관측된 자료값을 변수라고 함. 해당 변수에 대하여 관측된 값들이 바로 자료(Data)가 됨
  1. 질적 변수
  • 관측된 데이터가 성별, 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미함
  • 데이터 입력 시 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음
  • 성별, 업종 등은 명목형 변수, 교육 수준, 건강 상태 등은 순서형 변수
  1. 양적 변수
  • 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 갖고 있음
  • 숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분
  1. EDA
  • 데이터를 탐색하는 분석 방법으로 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법
  • 목적
    (1) 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
    (2) 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정
    (3) 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
    (4) 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용
  1. 데이터 시각화
  • 데이터 분석 결과를 쉽게 이해할 수 있도록 시간적으로 표현하고 전달되는 과정을 말한다. 목적은 도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다.
  • 시각화 구분
    (1) 시간 시각화 : 막대그래프, 누적막대그래프, 점그래프
    (2) 분포 시각화 : 파이차트, 도넛아트, 트리맵, 누적연속그래프
    (3) 관계 시각화 : 스캐터플롯, 버블차트, 히스토그램
    (4) 비교 시각화 : 히트맵, 스타차트, 평행좌표계, 다차원턱도법
    (5) 공간 시각화 : 지도 맵핑
  1. BI Tool(시각화 툴)
  • 엑셀
  • 태블로
  1. 기초 통계량
  • 통계량은 표본으로 산출한 값으로, 기술통계량이라고도 표현함
  • 통계량을 통해 데이터(표본)가 갖는 특성을 이해할 수 있음
  1. 중심 경향치
  • 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며, 이를 중심경향치라고 함
  • 대표적인 중심경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음
  1. 중앙값(median)
  • 표본으로부터 관측치를 크기순으로 나열했을 때, 가운데 위치하는 값을 의미
  • 관측치가 홀수일 경우 중앙에 취하는 값, 짝수일 경우 가운데 두 개의 값을 산술 평균한 값
  • 이상치가 포함된 데이터에 대해서 사용함
  1. 최빈값(mode)
  • 관측치 중에서 가장 많이 관측되는 값
  • 옷사이즈와 같이 명목형 데이터의 경우 사용
  1. 산포도
  • 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 표준편차, 변동계수 등이 있음
  1. 범위
  • 데이터의 최대값과 최소값의 차이를 의미
  1. 사분위수
  • 전체 데이터를 오름차순으로 정렬하여 4등분을 했을 때 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)라고 함
  • 사분위수 범위 : IQR = Q3 - Q1
  1. 백분위수
  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료값을 말함
  • 데이터를 오름차순으로 배열하고 자료가 n개 있을 때, 제(100*p) 백분위수는
    (1) np가 정수이면, np번째와 (np+1)번째 자료의 평균
    (2) np가 정수가 아니면 np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료
  1. 분산
  • 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
  • 데이터의 각각의 값들의 편차 제곱합으로 계산
  • 분산이 크면 분포가 넓어지고 분산이 작으면 분포가 좁음
  1. 표준편차
  • 분산의 제곱근
  1. 변동계수(CV)
  • 평균이 다른 두 개 이상의 그룹의 표준편차를 비교할 때 사용
  • 변동계수는 표준편차를 평균으로 나눠서 산출해 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교
  1. 왜도(skew)
  • 자료의 분포가 얼마나 비대칭적인지 표현하는 지표
  • 왜도가 0이면 좌우 대칭, 0에서 클수록 우측꼬리가 길고 0에서 작을수록 좌측꼬리가 김
  1. 첨도(kurtosis)
  • 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
  • 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움
  • 3보다 작을 경우 (K<3) 산포는 정규분포보다 꼬리가 얇은 분포로 생각할 수 있다.
  • 3보다 큰 양수이면 (K>3) 정규분포보다 꼬리가 두꺼운 분포로 판단
  1. 엑셀에서
  • 평균 : =AVERAGE(A1:A10)
  • 분산 : =VAR(A1:A10)
  • 표준편차 : SQRT(A1:A10)
  • CV : 표준편차/평균

1장 03확률 이론-확률_

  1. 확률
  • 모든 경우의 수에 대한 특정 사건에 발생하는 비율.
  1. 표본 공간
  • 표본 공간이란 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
  1. 통계적 확률 정의
  • 어떤 시행을 N번 반복했을 때 사건 A에 해당하는 결과가 r번 일어난 경우 r/n이고, 사건 A가 일어날 상대도수라고 함
  • N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 lim r/N을 사건 A의 통계적 확률 또는 경험적 확률이라고 함
  1. 확률의 성질
    (1) 합사건 : 사건 A 또는 사건 B가 일어날 확률
    (2) 곱사건 : 사건 A와 사건B가 동시에 일어날 확률
    (3) 배반사건 : 사건 A와 사건 B가 동시에 일어날 수 없을 경우
    (4) 여사건 : 사건A가 일어나지 않을 확률

  2. 확률의 성질
    (1) 확률의 덧셈법칙 : P(A∪B) = P(A) + P(B) - P(A∩B)
    (2) A와 B가 배반사건이면 : P(A∩B) = P(∮) = 0
    (3) A의 여사건이 Ac이면, P(A) + P(Ac) = 1

  3. 조건부확률

  • 어떤 사건 A가 발생한 상황에서 또 하나의 사건 B가 발생할 확률
  1. 확률의 곱셈법칙

1장 04확률 이론-확률변수_

  1. 확률 변수
    (1) 표본공간에서 각 사건에 실수를 대응시키는 함수를 확률 변수라고 함
    (2) 확률 변수의 값은 하나의 사건에 대해 하나의 값을 가지며, 실험의 결과에 의해 변함
    (3) 일반적으로 확률 변수는 대문자로 표현, 확률 변수의 특정값을 소문자로 표현
    (4) 이산 확률 변수 : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
    (5) 연속 확률 변수 : 연속형 또는 무한대와 같이 셀 수 없는 경우

  2. 확률 변수의 평균

  3. 확률 변수의 분산

  4. 기대값의 성질

  5. 분산의 성질

  6. 공분산
    2개의 확률 변수의 선형 관계를 나타내는 값으로, 하나의 값이 상승할 때 다른 값도 상승한다면, 양의 공분산을 가지고 반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐

1장 05확률분포이산형확률분포

  1. 확률 분포
    확률 변수 x가 취할 수 있는 모든 값과 그 값이 나타날 확률을 표현한 함수

  2. 이산형 균등 분포
    확률 변수 x가 유한개이고, 모든 확률 변수에 대해 균일한 확률을 갖는 분포를 이산형 균등 분포라고 함

  3. 베르누이 시행
    (1) 각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행을 베르누이 시행이라고 함
    (2) 베르누이 시행에서 성공이 1, 실패가 0의 값을 갖을 때 확률 변수 x의 분포를 베르누이 분포라고 함

  4. 이항분포
    (1) 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포임
    (2) 서로 독립인 베르누이 시행을 n번 반복해서 실행했을 때, 성공한 횟수 X의 확률 분포

  5. 이항분포의 기대값

  6. 포아송 분포
    어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포

  7. 포아송 분포의 조건
    (1) 어떤 단위구간(예: 1일)동안 이를 더 짧은 작은 단위의 구간(예: 1시간)으로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
    (2) 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
    (3) 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
    (4) 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례함
    (5) 포아송분포 확률 변수의 기댓값과 분산

  8. 이항 분포의 포아송 근사

  9. 기하 분포
    어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 x의 분포, 이때 각 시도는 베르누이 시행을 따름

  10. 음이항 분포
    어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 발생한 성공 횟수 X의 확률 분포

profile
print(‘안녕하세요! 반갑습니다!’)

0개의 댓글