스터디노트 (통계학 2)

zoe·2023년 5월 4일
0

가설검정과 유의수준 정의

  • 가설검정 = 가설(Hypothesis) + 검정(Testing)

  • 가설(Hypothesis) : 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측. 통계학에서는 특히 모수를 추정할 때 모수가 어떠하다는 증명하고 싶은 추측이나 주장

  • 귀무가설(Null hypothesis : H0) : 기존의 사실(아무것도 없다. 의미가 없다). 대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀무가설은 연구 목적이 아니다
    ex) H0 : 코로나 백신이 효과가 없다

  • 대립가설(Alternative hypothesis : H1) : 데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설과 반대.
    ex) H₁: 코로나 백신이 효과가 있다.

  • 제 1종 오류(type Ⅰerror) : 귀무가설이 참이지만, 귀무가설을 기각하는 오류. H0을 기각할 확률이 α라고 하면 채택하게 될 확률은 1 - α로 표시할 수 있다. 제 1종 오류를 범할 확률의 최대 허용 한계를 유의수준이라고 하며 α라고 표시한다.

  • 제 2종 오류(type Ⅱ error) : 귀무가설을 기각해야 하지만, 귀무가설을 채택하는 오류

  • 검정통계량 : 귀무가설이 참이라는 가정 하에 얻은 통계량. 검정 결과 대립가설을 선택하게되면 귀무가설을 기각(reject)한다. 검정결과 귀무가설을 선택하게 되면 귀무가서러을 기각하지 못한다고 표현한다.

  • P-value : 귀무가설이 참일 확률. 0 ~ 1 사이의 표준화된 지표(확률값). 귀무가설이 참이라는 가정 하에 통계량이 귀무가설을 어러마나 지지하는지를 나타낼 확률

  • 기각역(reject region) : 귀무가설을 기각시키는 검정통계량의 관측값의 영역

  • 가설 검정의 절차

  1. 가설수립 (ex) H0 : 코로나 백신이 효과가 없다, H₁: 코로나 백신이 효과가 있다.)
  2. 유의 수준 : 유의수준 α 정의
  3. 기각역 설정
  4. 검정통계량 계산
  5. 의사결정
  • 양측검정(two-side test) : 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
    ex) A백신과 B백신의 코로나 면역력에는 차이가 있다
    ex) A팀과 B팀의 평균 연봉은 차이가 있다

  • 단측검정(one-side test) : 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다처럼 한쪽 방향의 주장
    ex) A제품의 수율이 B제품의 수율보다 크다
    ex) A팀의 평균 연봉이 B팀의 평균 연봉보다 크다




단일 표본에 대한 가설검정

  • 모평균 가설검정 - 모분산을 아는 경우

  • 모평균 가설검정 - 모분산을 모르는 경우(소표본)




두 개의 표본에 대한 가설검정

  • 대표본 - 모분산을 아는 경우

  • 대표본 - 모분산을 모르는 경우

  • 대응비교




범주형자료분석

  • 범주형 자료(categorical data) : 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류시켜 도수로 주어진 데이터

  • 범주형 자료 분석(categorical data analysis) : 범주형 자료에 대한 통계적 추론 방법. 범주형 자료 분석은 카이제곱 검정으로 추론
    ex) 대선에서 각 정단의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
    ex) 성별에 따라서 선호하는 핸드폰 회사가 동일한가?

  • t - test와 카이제곱 검정의 차이:
  • t - test : 연속형 변수의 차이에 대한 검정
  • 명목형 변수에 대한 검정시 카이제곱 검정을 사용

  • 적합도 검정(goodness of fit test) : 관측된 값들이 추론하는 분포를 따르고 있는지 검정. 한 개의 요인을 대상으로 검정
    ex) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자.100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자

  • 독립성 검정(test of independence) : 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정
    ex) 지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때,지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

  • 동질성 검정(test of homogeneity) : 서로 다른 세개 이상의 모집단으로부터 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정
    ex) 남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라



  • 적합도 검정(goodness of fit test) : 관측된 값들이 추론하는 분포를 따르고 있는지 검정. 한 개의 요인을 대상으로 검정

  • 카이제곱
    - O는 관찰빈도(observed frequency) : 데이터로부터 수집된 값
    - E는 기대빈도(expected frequency) : 기대값과 비슷한 개념
    ex) 기대빈도는 예를 들어 남녀 1000명의 데이터에서 각 성별의 기대 빈도는 500명임
    ex) 주사위 120번을 던졌을 때 각 눈이 나오는 기대빈도는 20번임




  • 독립성 검정(test of independence) : 관측된 갑사을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정




  • 동질성 검정(test of homogeneity) : 서로 다른 모집단에서 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정




상관분석

  • 상관관계(correlation coefficient) : 두 변수간의 함수 관계가 선형적인 관계가 있는지 파악할 수 있는 측도

1) 상관계수 -1 ≤ ρ ≤ 1
2) 상관계수가 1에 가까울수록 양의 상관관계가 강함
3) 상관계수가 -1에 가까울수록 음의 상관관계가 강함
4) 상관계수가 0에 가까울수록 두 변수 간의 상관관계가 존재하지 않는다
5) 상관계수가 0이라는 것은 두 변수 간에 선형관계가 존재하지 않는 다는 것이다



  • 표본상관관계(sample correlation coefficient) :

  • 가설검정
    1) 가설수립 H0 : ρ = 0(상관관계가 없다) vs H1 : ρ ≠ 0(상관관계가 있다)
    2)

※ excel

  • 데이터 → 데이터 분석 → 상관분석




회귀분석

  • 회귀분석(regression analysis) : 변수들간의 함수적 관계를 선형으로 추론하는 통계적 분석 방법으로 독립변수를 통해 종속변수를 예측하는 방법

  • 종속변수(dependent variable) : 다른 변수의 영향을 받는 변수로 반응변수라 표현하기도 하며, 예측을 하고자 하는 변수

  • 독립변수(independent variable) : 종속변수에 영향을 주는 변수로 설명변수라고 하며, 예측하는 값을 설명해주는 변수



  • 단순 회귀분석(simple regression analysis) : 하나의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법. 회귀선으로부터 각 관측치의 오차를 최소로 하는 선을 찾는 것이 핵심. 오차를 최소로 하여 β0, β₁을 추정하는 최소제곱법(method of least squares)라고 한다

  • 최소 제곱법 : 회귀 모형의 모수 β0, β₁을 추정하는 방법 중 하나. 회귀 모형의 모수를 회귀 계수라고 한다. 최소 제곱법을 통해 구한 추정량을 최소제곱추정량(LSE)라고 하며, 최소제곱법을 통해 회귀모형의 모수를 추정하는 것을 OLS(Ordinary Least Square)라고 한다.

  • 회귀 모형의 오차에 대한 기본 가정
    1) 정규성 가정 : 오차항은 평균 0인 정규분포를 따름
    2) 등분산성 가정 : 오차항의 분산은 모든 관측값 xi에 상관없이 일정하다
    3) 독립성 가정 : 모든 오차항은 서로 독립임

  • 분산분석표 : 추정된 회귀식에 대한 유의성 여부는 분산분석을 통해 회귀식의 유의성을 판단할 수 있음

  • 결정계수(Coefficient of determination: R²) : 추정된 회귀식이 얼마나 전체 데이터에 대해서 적합한지(설명력이 있는지)를 수치로 제공하는 값. 0과 1사이에 값으로 1에 가까울수록 추정된 모형이 설명력이 높다고 할 수 있다. 0이라는 것은 추정된 모형이 설명력이 전혀 없다고 할 수 있다

  • 수정 결정계수 (Adjust R²) : R²은 유의하지 않은 변수가 추가되어도 항상 증가됨(다중회귀). Adjust R²은 특정 계수를 곱해줌으로서 R²가 항상 증가하지 않도록 한다. 보통 모형 간의 성능을 비교할 때 사용

  • 잔차분석 :
    a) 선형성을 벗어나는 경우 - 종속변수와 독립변수가 선형 관계가 아님
    b) 등분산성이 벗어난 경우 - 일반적인 회귀모형 사용 불가능. 등분산성 가정 위배
    c) 독립성에 벗어나는 경우 - 시계열 데이터 또는 관측 순서에 영향을 받는 데이터에서는 독립성을 담보할 수 없음(Dubin-Watson test 실행)
    d) 정규성을 벗어나는 경우 - Normal Q-Q plot으로도 확인. 잔차가 -2 ~ 2사이에 분포해야 함. 벗어나는 자료가 많으면 독립성 가정 위배




  • 다중 회귀분석(multiple regression analysis) : 2개 이상의 독립변수로 종속변수를 예측하는 회귀 모형을 만드는 방법

  • 회귀모델링 분류 : X변수의 수, Y변수의 선형성 여부에 따라 구분

  • 로지스틱 회귀 분석(Logistic regresstion analysis) : 반응 변수가 범주형(이진수)인 경우 사용하는 모형

  • 다항 회귀분석(polynomial regresstion) : 독립변수가 k개이고 반응변수와 독립변수가 1차 함수 이상인 회귀분석




  • 변수선택법 :
    - 전진선택법(forward selection) : 독립변수 1개부터 시작하여 가장 유의한 변수들부터 하나씩 추가하는 방법
    - 후진제거법(backward selection) : 모든 독립변수를 넣고 모형을 생성한 후, 하나씩 제거하면서 판단하는 방법
    - 단계적 방법(stepwise selection) : 위의 두 가지 방법을 모두 사용하여 변수를 넣고 빼면서 판단하는 방법

  • 더미변수(dummy variable) : 값이 '0' 또는 '1'로 이루어진 변수. 범주형 변수를 사용하기 위해서 필요하다. 예를 들어 사는 지역을 '1', '2', '3'으로 사용하면 연속형 변수여서 정확한 변수로 사용할 수 없다. 범주형 변수를 0과 1의 조합으로 표현할 수 있도록 더비 변수를 생성한다.
    ex) 최종 학력: 고졸, 대졸, 석사, 박사 4가지로 표현 한다면 필요한 더미의 개수는 4-1 = 3개임

  • 다중공선성(Multicollinearity) :

상관관계가 높은 독립변수들이 동시에 사용될 때 문제가 발생. 결정계수 R²값은 퐁아 회귀식의 설명력은 높지만 독립변수의 P-value가 커서 개별 인자들이 유의하지 않은 경우 의심할 수 있다. 일반적으로 분상팽창요인(Variance Inflation Factor:VIF)이 10이상이면 다중공선성이 존재

  • 해결방안 :
    1) 다중공선성이 존재하지만 유의한 변수인 경우 목적에 따라 사용할 수 있다
    2) 변수 제거
    3) 주성분분석으로 변수를 재조합




분산분석

  • 분산분석(ANOVA : analysis of variance) : 셋 이상의 모집단의 평균 차이를 검정. 모집단의 평균들을 비교하기 위하여 특성값의 분산 또는 변동을 분석하는 방법. 실험을 통해 얻은 편차의 제곱합을 통해 평균의 차이를 검정

  • t - test : 두개의 모집단의 평균 차이를 검정

  • 분산분석의 이해 : 실험계획법(experimental design) 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 설계

  • 반응변수 : 관심의 대상이 되는 변수

  • 요인/인자(Factor) :실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수

  • 인자수준 : 인자가 취하는 개별 값(처리 : treatment)

  • 분산분석의 기본 가정
    1) 각 모집단은 정규분포를 따른다
    2) 각 모집단은 동일한 분산을 갖는다
    3) 각 표본은 독립적으로 추출되었다

  • 분산분석의 가설과 실험의 가정
    가설 :
    Ho : 각 집단의 평균은 동일하다 vs H₁: 각 집단의 평균에 차이가 있다

  • 실험의 가정

  • 반복의 원리 : 실험을 반복해서 실행해야 한다

  • 랜덤화의 원리 : 각 실험의 순서를 무작위로 해야 한다

  • 블록화의 원리 : 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 한다

  • 일원 분산분석 : 한가지 요인을 기준으로 집단간의 차이를 조사하는 것
  • 이원 분산분석 : 두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것
  • 다원 분산분석 : 세 가지 이상의 요인을 기준으로 집단 간의 차이를 조사하는 것




  • One-way ANOVA : 한 개의 반응 변수와 한 개의 독립 인자
    - 반응 변수 : 연속형 변수만 가능
    - 독립인자(변수) : 이산형 또는 범주형 변수만 가능

  • 사후검정 : 평균이 다른 것은 알지만 어떤 처리 조건이 평균차이가 있는지 검정. Bonferroni, scheffe, Cuncan, Dunnett 등의 방법으로 사후 검정이 가능하다




  • two-way ANOVA : 한 개의 반응 변수와 두 개의 독립 인자로 분석하는 방법. 독립인자는 one-way와 마찬가지로 이산형 또는 범주형 변수만 가능.
    ex) 만족도에 영향을 주는 인자가 편의점 브랜드와 상권이라고 할 때, 편의점 브랜드별로 상권을 변경하면서 만족도가 다른지 측정하고 분석하는 방법

  • 상호작용(Interaction effect) : 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 변하는 경우

  • two-way ANOVA 가설




시계열 분석

  • 시계열 분석(time series analysis) : 시계열(시간의 흐름에 따라 기록된 것) 자료(data)를 분석하고 여러 변수들간의 인과관계를 분석하는 방법
  • 시계열 데이터 : 시간을 기준으로 관측된 데이터로, 보통 일 → 주 → 월 → 분기 → 년 또는 hour등의 시간의 경과에 따라서 관측한 데이터
    Ex) GDP, 주가, 거래액, 매출액, 승인금액 등을 시간에 흐름에 따라 정의한 데이터

  • 시계열 데이터는 연속 시계열과 이산 시계열 데이터로 구분

  • 연속 시계열 : 자료가 연속적으로 생성. 대부분의 데이터 형태가 연속형이나 이산형으로 정의하여 분석

  • 시계열 분석의 목적 :
    - 예측 → 금융시장 예측, 수요 예측 등 미래의 특정 시점에 대한 관심의 대상(반응변수)을 예측
    - 시계열 특성 파악 → 경향(trend), 주기, 계절정, 변동성(패턴) 등 관측치의 시계열 특성 파악

  • 전통적인 시계열 분석 방법
    - 이동 평균 모형(moving average) : 최근 데이터의 평균을 예측치로 사용하는 방법(MA)
    - 자기 상관 모형(Autocorrelation) : 변수의 과거 값의 선형 조합을 이용하여 예측하는 방법(AR)
    - ARIMA(Autoregressive Integrated Moving Average) : 관측값과 오차를 사용해서 모형을 만들어 미래를 예측하는 방법
    - 지수평활법 : 현재에 가까운 시점에 가장 많은 가중치를 주고 멀어질수록 낮은 가중치를 주어서 미래를 예측하는 방법

  • 시계열 요소
    - 경향/추세(trend) : 시계열 데이터가 장기적으로 증가(감소)할 때, 추세가 존재
    - 계절성(seasonality) : 특정기간(1년마다) 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것같은 계절성 요인이 시계열에 영향을 줄 때 계절성이라고 함
    Ex) 패션업종 매출, 요일 별 온라인 쇼핑몰 매출 등이 계절성의 대표적
    - 주기성(cycle) : 일정한 주기(진폭)마다 유사한 변동이 반복딘느 현상, 보통 경기 순환(business cycle)과 관련이 있으며 지속기간은 2년
    Ex) 주가 업좀별 개별(업종) 주가
    - 불규칙 요인(Irregular movements) : 예측하거나 제어할 수 없는 요소
    Ex) 회귀분석의 오차와 같은 항목

  • 이동 평균법 :
    ex)주식 5일 이내 평균선..

  • 지수평활법 : 모든 관측값을 이용하면서 예측하는 시점에 가까울수록 비중을 두어 최근값을 예측할 때 더 많은 기여를 하도록 만드는 방법




Machine Learning 알고리즘과 실제 활용 소개

  • 기초통계 활용하기

  • Machine Learning

  • 머신러닝(Machine Learning) : 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야. 컴퓨터가 학습모형을 기반으로 주어진 데이터를 통해 스스로 학습하는 것.

1) 분석하고자 하는 목표(Task)
2) Experience를 정의하기 위한 데이터를 수집
3) Performance를 향상시키기 위한 Measure를 정의

  • Supervised Learning : Label이 있는 데이터에 대해서 분석하는 방법으로 과거의 데이터로 미래를 예측하는 방법
  • Classification은 Y의 값이 Category일 때 Regression은 Y의 값이 연속된 값일 경우 사용
  • Unsupervised Learning : Label이 없는 데이터에 대해서 분석하는 방법으로 데이터를 나누거나 속성별로 분류할 때 사용




  • Decision Tree : 설명변수(X) 간에 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델
    - 장점 : 결과 해석이 쉽고 빠름, 선형/비선형에 적용 가능
    - 단점 : 과도적합의 문제 조심, 분기점에서 오차 발생확률이 올라감

  • 앙상블 모형
    - Bagging : boostrap aggregating의 약어로 데이터를 가방(bag)에 쓸어 담아 복원 추출하여 여러 개의 표본을 만들어 이를 기반으로 각각의 모델을 개발한 후에 결과를 하나로 합쳐 하나의 모델을 만들어 내는 것
    ex) randomforest
    - Boosting : Boosing도 Bagging과 동일하게 복원 랜덤 샘플링을 하지만, 가중치를 부여한다는 점이 차이점. Bagging이 병렬로 학습하는 반면, Boosting은 순차적으로 학습시킨다. 학습이 끝나면 나온 결과에 따라 가중치가 재분배
    ex) AdaBoost, XGBoost, GradientBoost

  • 추천모형

  • Association, CF 모형

  • 협업 필터링 방식(Collaborative Filtering) : 가맹점과의 유사도, 고객 이용패턴 유사도 기반, 물리적 거리 기반이 아닌 이용 유사도 기만 연계성, 고객별 가맹점 선호도 도출
    - 사용자 기반의 협업 필터링(User Based) : 비슷한 행동을 한 사용자를 클러스터링하여 목표 사용자가 속하는 군집에서 다른 사람들이 높은 점수의 평가를 부여한 아이템을 추천
    - 아이템 기반의 협업 필터링 기법(Item Based) : 아이템 사이의 연관성을 파악하여 비슷한 아이템의 군집을 생성하고, 그 군집 내에서 목표 사용자의 행동 기록을 기반으로 다른 아이템을 추천

  • Deep Learning : Deep Learning 또는 Deep Neural Network라고 불리는 기술은 인공신경망의 발전한 형태로 볼 수 있다. 인간의 뇌처럼 수많은 노드를 연결하여 이들의 노드 값을 훈련시켜 데이터를 학습시킴
    - Convolutional Neural Network(CNN) : 기존의 방법은 데이터 → 지식의 단계로 학습. 데이터 → 특징(feature) → 지식의 단계로 학습을 시킴(예를 들어 사물인식에 있어서 특징적인 선이나 색을 먼저 추출하여 판단)
    - 시계열 데이터를 위한 Recurrent Neural Network : 시계열 데이터 분석에 사용함. 매순간마다 인공신경망 구조를 쌓아 올린 형태

어렵....

💻 출처 : 제로베이스 데이터 취업 스쿨

profile
#데이터분석 #퍼포먼스마케팅 #데이터 #디지털마케팅

0개의 댓글