Ch1 기초통계_Basic 01-07 (기초 1-3)

김민지·2023년 5월 2일
0

Part 08. 통계

목록 보기
1/3
  1. Introduce
  • 통계학(statistics) : 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야
  • 기술통계학(descriptive statistics) : 데이터를 수집하고, 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리,요약,설명하는 방법론
  • 추론통계학(inferential statistics) : 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론
  1. 데이터의 이해
    2-1. 데이터와 그래프
    (1) 변수(variable)
  • 수학에서의 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호'이다. 보통 쉽게 설명하기 위해 '변하는 숫자'라는 표현을 자주 사용.
  • 통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 하며, 해당 변수에 대하여 관측된 값들이 바로 자료(data)가 된다.

(2) 질적 자료

  • 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터임
  • 데이터 입력시 1은 남자, 2는 여자로 표현 가능하나, 여기서 숫자의 의미는 없음 (명목형 변수)
    (순서형 변수: 교육수준, 건강상태)

(3) 양적 자료

  • 관측된 데이터가 숫자의 형태로, 숫자의 크기가 의미를 갖고 있음
  • 숫자를 표현할 때는 이산형 데이터와 연속형 데이터로 구분할 수 있음
  • 이산형 데이터 (숫자가 딱딱 나눠질 경우)
  • 연속형 데이터 (실수처럼 쭉 데이터가 이어지는 경우)

(4) EDA

  • 가장 많이 사용하는 데이터 분석 방법을 Exploratory Data Analysis라고 함
  • EDA는 데이터를 탐색하는 분석 방법으로, 도표, 그래프, 요약, 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법임
  • 목적 :
    - 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용,
    - 데이터 분석 프로젝트 초기에 적절한 모델 및 기법의 선정,
    - 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
    - 분석 데이터에 적절한지 평가, 추가 수집, 이상치 발견 등에 활용

(5) 데이터 시각화(data visualization)

  • 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달하는 과정
  • 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것
  • 시각화 목적별 주요 시각화 방법
    - 시간 시각화 : 막대 그래프, 누적 막대 그래프, 점그래프
    - 분포 시각화 : 파이 차트, 도넛 아트, 트리맵, 누적 연속 그래프
    • 관계 시각화 : 스캐터플롯, 버플차트, 히스토그램
    • 비교 시각화 : 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법
    • 공간 시각화 : 지도 맵핑

2-2. 데이터의 기초 통계량
(1) 기초 통계량

  • 통계량(statistics)은 표본으로 산출한 값으로, 기술통계량이라고도 표현함
  • 통계량을 통해 데이터(표본)가 갖는 특성 이해가능

(2) 중심 경향치

  • 표본(데이터)을 이해하기 위해서는 표본의 중심에 대해서 관심을 갖기 때문에 표본의 중심을 설명하는 값을 대표값이라 하며, 이를 중심경향치라고 함
  • 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있음

(2-1) 평균

  • 표본으로 추출된 표본평균(sample mean)이라고 하며, 모집단의 평균을 모평균이라고 함

(2-2) 중앙값(median)

  • 평균과 같이 자주 사용하는 값으로, 표본으로부터 관측치를 크기순으로 나열했을 때, 가운데 위치하는 값을 의미함
  • 관측치가 홀수일 경우 중앙에 취하는 값이고, 짝수일 경우 가운데 두 개의 값을 산술 평균한 값임
  • 이상치가 포함된 데이터에 대해서 사용함

(2-3) 최빈값(mode)

  • 관측치 중에서 가장 많이 관측되는 값
  • 옷사이즈와 같이 명목형 데이터의 경우에 사용함

(3) 산포도

  • 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심경향치와 함께 산포에 대한 측도를 같이 고려해야 함
  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동계수 등이 있음

(3-1) 범위(Range)

  • 데이터의 최대값과 최소값의 차이를 의미함

(3-2) 사분위수(quartile)

  • 전체 데이터를 오름차순으로 정렬하여 4등분을 했을 때, 첫 번째를 제1사분위수(Q1), 두 번째를 제2사분위수(Q2), 세 번째를 제3사분위수(Q3)라고 함
  • 사분위수 범위(interquartile range) : IQR = 제3사분위수(Q3) - 제1사분위수(Q1)

(3-3) 백분위수(percentile)

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값을 말하며, 제p백분위수는 p%에 위치한 자료값을 말함
  • 데이터를 오름차순으로 배열하고 자료가 n개가 있을 때, 제(100*p)백분위수는 아래와 같음
    1) np가 정수이면, np번째와 (np+1)번째 자료의 평균
    2) np가 정수가 아니면, np보다 큰 최소의 정수를 m이라고 할 때 m번째 자료

(3-4) 분산(variance)

  • 데이터의 분포가 얼마나 흩어져 있는지를 알 수 있는 측도
  • 데이터 각각의 값들의 편차 제곱합으로 계산함

(3-5) 표준편차(standard deviation)

  • 분산의 제곱근으로 정의함

(3-6) 변동계수(Coefficient of Variation: CV)

  • 평균이 다른 두 개 이상 그룹의 표준편차를 비교할 때 사용함 (클수록 분산정도가 큰 것)
  • 변동계수는 표준편차를 평균으로 나누어서 산출함
  • 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교하며 실제 분석에서 자주 사용함

(3-7) 정규 분포 모양

  • 분산이 크면 분포가 넓어지고 분산이 작으면 분포가 좁아짐
    -왜도(skew) : 자료의 분포가 얼마나 비대칭적인지 표현하는 지표.
    왜도가 0이면 좌우가 대칭이고, 0에서 클수록 우측꼬리가 길고 0에서 작을수록 좌측 꼬리가 김
    -첨도(kurtosis) : 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도.
    첨도값(K)이 3에 가까우면 산포도가 정규분포에 가까움.
    3보다 작을 경우(K<3)에는 산포는 정규분포보다 꼬리가 얇은 분포,
    첨도값이 3보다 큰 양수(K>3)이면 정규분포보다 꼬리가 두꺼운 분포로 판단
  1. 확률 이론 - 확률
  • 확률(probability) : 모든 경우의 수에 대한 특정 사건이 발생하는 비율. 대체로 수학 외에서는 0과 1 사이의 소수 혹은 분수나 순열 등으로 나타내기보다는, 다른 비율을 나타낼 때처럼 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율(%)로 나타내거나, 옛날처럼 할푼리로 나타내기도 함

  • 확률의 고전적 정의 : 어떤 사건의 발생 확률은 '그것이 일어날 수 있는 경우의 수' 대 '가능한 모든 경우의 수'의 비이다. 단, 이는 어떠한 사건도 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립한다.

  • 표본 공간(Sample Space) : 어떤 실험에서 나올 수 있는 모든 가능한 결과들의 집합
    -> ex) 동전 던지기의 경우 S={앞면, 뒷면}, 주사위던지기의 경우 S={1,2,3,4,5,6}

  • 사건 A가 일어날 확률을 P(A)라고 하고, 표본공간(S)가 유한집합일 때 표본공간의 모든 원소들이 일어날 확률이 같으면 P(A)= '사건A가 일어날 원소의 수' / '표본공간 S의 원소의 수'

  • 통계적 확률 정의 : 어떤 시행을 N번 반복했을 때, 사건A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건A가 일어날 상대도수라고 함. N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건A의 통계적 확률 또는 경험적 확률이라고 함

  • 확률의 성질
    - 합사건(union) : 사건A 또는 사건B가 일어날 확률
    - 곱사건(intersection) : 사건A와 사건B가 동시에 일어날 확률
    - 배반사건(mutually exclusive event) : 사건A와 사건B가 동시에 일어날 수 없을 경우
    - 여사건(complement) : 사건A가 일어나지 않을 확률

  • 조합과 순열
    - ! (Factorial) : n개를 일렬로 늘어 놓은 경우의 수를 n!로 표현함
    - 순열(Permutation) : 순서를 고려하여 n개 중 r개를 뽑아서 배열하는 경우의 수 nPr
    - 조합(Combination) : 순서를 고려하지 않고 n개 중 r개를 뽑아서 배열하는 경우의 수 nCr

  • 조건부 확률(conditional probability)
    : 어떤 사건A가 발생한 상황에서 (주어졌을 때) 또 하나의 사건B가 발생할 확률

  • 확률의 곱셈법칙
    : 사건A와 사건B가 독립일 경우, 두 사건의 교집합의 확률은 각각 사건이 일어날 확률을 곱한 것

  • 베이즈 정리(Bayes' Theorem)
    : 표본 공간 S에서 서로 배반인 사건 B1,B2,...,Bk에 의하여 분할되어 있을 때, 임의의 사건 A에 대하여 성립하는 공식

  1. 확률 이론 - 확률변수
  • 확률 변수(random variable) : 표본공간에서 각 사건에 실수를 대응시키는 함수

  • 확률변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의해 변함

  • 일반적으로 확률변수는 대문자로 표현하며, 확률변수의 특정값을 소문자로 표현함
    - 확률변수: X,Y 등 대문자 표현
    - 확률변수의 특정값: x,y 등 소문자 표현
    - 이산 확률 변수(discrete random variable) : 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
    - 연속 확률 변수(continuous random variable) : 연속형 또는 무한대와 같이 셀 수 없는 경우

  • 확률변수 예시
    (a) 반도체 1000개의 wafer 중 불량품의 수 X
    (b) 공장에서 생산하는 전구의 수명 T
    (c) 주사위를 던질 때 나오는 눈의 수 V

  • 확률변수의 평균 : 기대값이라고 표현하기도 함

  • 확률변수의 분산

  • 기대값의 성질

  • 분산의 성질

  • 공분산
    : 2개의 확률변수의 선형관계를 나타내는 값으로,
    하나의 값이 상승할 때 다른 값도 상승한다면 양의 공분산을 가지고,
    반대로 하나의 값이 상승할 때 하락한다면 음의 공분산을 가짐

  1. 확률분포 - 이산형 확률분포
  • 확률분포(probability distribution) : 확률변수 X가 취할 수 있는 모든 값과 그 값이 나타날 확률을 표현한 함수

  • 이산형 확률분포 종류 : 베르누이 분포, 이항분포, 포아송분포, 기하분포, 음이항분포, 초기하분포

  • 연속형 확률분포 종류 : 균일분포, 정규분포, 감마분포, 지수분포, 카이제곱분포, 베타분포

  • 이산형 균등분포(discrete uniform distribution)
    : 확률분포 X가 유한개이고, 모든 확률변수에 대하여 균일한 확률을 갖는 분포
    -> 이산형균등분포의 기대값: n+1/2, 분산: (n**2-1)/12

  • 베르누이 시행(Bernoulli trial)
    : 각 시행의 결과가 성공, 실패 두 가지 결과만 존재하는 시행

  • 베르누이 분포(Bernoulli distribution)
    : 베르누이 시행에서 성공이 '1', 실패가 '0'의 값을 가질 때, 확률변수 X의 분포를 뜻함
    -> 베르누이 분포의 평균: p, 분산: p(1-p)

  • 이항분포(Binomial distribution)
    : 연속적인 베르누이 시행을 거쳐 나타나는 확률분포. 서로 독립인 베르누이 시행을 n번 반복해서 실행했을 때, 성공한 횟수 X의 확률분포
    -> 이항분포의 기대값: np, 분산: np(1-p)

  • 포아송 분포(Poisson distribution)
    : 어떤 일정한 시간대에 특정한(희귀한) 사건이 발생할 확률분포
    -> ex) 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수, 1년간 지구에 1미터 이상의 운석이 떨어지는 수 등
    -> 포아송 분포의 조건
    1. 어떤 단위구간 동안 이를 더 짧은 작은 단위의 구간으로 나눌 수 있고, 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
    2. 두 개 이상의 사건이 동시에 일어날 확률은 0에 가까움
    3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적
    4. 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례함
    5. 포아송분포 확률변수의 기댓값과 분산은 모두 lambda임

  • 이항 분포의 포아송 근사

  • 기하분포(geometric distribution)
    : 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름
    -> ex) 축구선수 손흥민의 필드골 성공 확률이 30%일 때, 5번째 슛팅에서 골을 넣을 확률 분포
    -> 기대분포의 기대값: 1/p, 분산: 1-p/p**2

  • 음이항분포(negative binomial distribution)
    : 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 발생한 성공횟수 X의 확률분포
    -> ex) 농구선수 허훈의 자유투 성공 확률이 90%일 때, 3번째 실패가 나올 때까지 성공시킨 자유투가 10번일 확률
    -> 음이항분포의 기대값: r*(1-p)/p, 분산: r(1-p)/p**2

  1. 확률분포 - 연속형 확률분포
  • 확률밀도함수(probability density function-pdf): 연속형 확률변수 X에 대해서 함수 f(x)가 특정 조건을 만족하면 확률밀도함수라고 함
  • 누적분포함수(cumulative density function-cdf): 확률밀도함수를 적분하면 누적분포함수가 됨
  • 균일분포(uniform distribution): 확률변수 X가 a와 b 사이에서 아래와 같은 확률밀도함수(pdf)를 가짐
  • 정규분포(normal distribution) !!공식중요!!: 정규분포는 19세기 최대 수학자라고 불리는 독일의 가우스에 의해 제시된 것으로 가우스 분포라고도 함
  • 표준 정규분포(standard normal distribution)
  • 지수분포(exponential distribution)
    : 단위 시간당 발생할 확률 lambda인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률변수 X는 지수 분포임
    -> ex) 버스 정류장에서 100번 버스가 도착하는 횟수가 포아송 분포를 따른다면, 첫 번째 버스가 도착할 때까지 대기 시간의 분포가 지수분포임
    -> 지수분포는 연속되는 사건 사이의 대기시간도 지수분포임
  • 지수분포의 무기억성(Memoryless Property)
    : 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음
    -> ex) 버스를 기다리는 대기시간은 먼저 기다린 사람과 확률이 같음
    -> ex) 전구를 한달 동안 사용했을 때 남은 수명은 한달간 사용했던 영향을 받지 않음. 즉 새전구와 한달간 사용한 전구의 남은 수명은 같다고 생각함
    -> 이러한 문제로 실제 적용에 문제가 있기에 생존 분석에서는 Weibull 분포 또는 log-normal 분포를 사용하여 예측함

<제로베이스 데이터 취업 스쿨>

0개의 댓글