통계분석2 + 머신러닝 알고리즘 활용

InSung-Na·2023년 3월 3일

ANOVA 분산분석 통계분석

1

Part 07. Statistics

목록 보기

5/5

해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다

3. 분산분석

셋 이상의 모집단으로부터 추출한 양적데이터를 비교하는 통계적 분석 방법
분산분석의 이해

3-1. 분산분석의 이해

실험계획법(experimental design)
- 모집단의 특성에 대하여 추론하기 위해 특별한 목적성을 가지고 데이터를 수집하기 위한 실험설계

반응변수
- 관심의 대상이 되는 변수(종속변수)
요인/인자(Factor)
- 실험 환경 또는 조건을 구분하는 변수로 실험에 영향을 주는 변수
인자수준
- 인자가 취하는 개별 값(처리:treatment)

분산분석의 기본 가정

1) 각 모집단은 정규 분포를 따른다

2) 각 모집단은 동일한 분산을 갖는다

3) 각 표본은 독립적으로 추출되었다

분산분석의 가설과 실험의 가정

가설

H0: 각 집단의 평균은 동일하다 vs H1: 각 집단의 평균에 차이가 있다

실험의 가정

반복의 원리: 실험을 반복해서 실행해야 함
랜덤화의 원리: 각 실험의 순서를 무작위로 해야함
블록화의 원리: 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함

분산분석의 종류

일원 분산분석

한가지 요인을 기준으로 집단간의 차이를 조사하는 것

이원 분산분석

두 가지 요인을 기준으로 집단 간의 차이를 조사하는 것

다원 분산분석

세 가지 이상의 요인을 기준으로 집단 간의 차이를 조사하는 것

3-2. 일원분산분석(ONE-WAY ANOVA)

한 개의 반응변수와 한 개의 독립인자
반응 변수 : 연속형 변수만 가능
독립 인자 : 이산형 또는 범주형 변수만 가능

3-3. 이원분산분석(TWO-WAY ANOVA)

한 개의 반응 변수와 두 개의 독립 인자로 분석하는 방법
상호작용(Interatction effect)
- 한 독립변수의 main effect가 다른 독립변수의 level에 따라서 원래의 선형관계를 비선형관계로 변하는 경우

4. 시계열분석

시계열(시간의 흐름에 따라 기록된 것) 자료를 분석하고 여러 변수들간의 인과관계를 분석하는 방법

시계열데이터

시간을 기준으로 관측된 데이터로, 보통 일->주->월->분기->년 또는 hour 등 시간의 경과에 따라서 관측한 데이터
ex) GDP, 주가, 거래액, 매출액, 승인금액 등
연속 시계열과 이산 시계열 데이터로 구분됨

연속형 시계열

자료가 연속적으로 생성
대부분의 데이터 형태가 연속형이나 이산형 정의하여 분석

이산형 시계열

일정 시차(간격)를 두고 관측되는 형태의 데이터
대부분 이산형 데이터를 분석

시계열 분석의 목적

예측
- 금융시장 예측, 수요 예측등 미래의 특정 시점에 대한 관심의 대상(반응변수)을 예측
시계열 특성 파악
- 경향(Trend), 주기, 계절성, 변동성(패턴) 등 관측치의 시계열 특성 파악

전통적인 시계열 분석 방법

이동 평균 모형(moving average)
- 최근 데이터의 평균을 예측치로 사용하는 방법
자기 상관 모형(Autocorrelation)
- 변수의 과거 값의 선형 조합을 이용하여 예측하는 방법
ARIMA(Autoregressive Integrated Moving Average)
- 관측값과 오차를 사용해서 모형을 만들어서 미래를 예측하는 방법
지수평활법
- 현재에 가까운 시점에 가장 많은 가중치 주고 멀어질수록 낮은 가중치를 주어서 미래를 예측하는 방법

시계열요소

경향/추세(trend)
- 시계열 데이터가 장기적으로 증감할 때, 추세가 존재함
계절성(seasonality)
- 특정기간(1년마다) 어떤 특정한 때나 1주일마다 특정 요일에 나타나는 것 같은 계절성 요인이 시계열에 영향을 주는 것
- ex) 패션업종, 요일 별 온라인 쇼핑몰 매출
주기성(cycle)
- 일정한 주기마다 유사한 변동이 반복되는 현상
불규칙요인(Irregular movements)
- 예측하거나 제어할 수 없는 요소

시계열 분석방법

이동평균법

지수평활법

모든 관측값을 이용하면서 예측하는 시점에 가까울수록 비중을 두어 최근값이 예측시 더 많은 기여를 하도록 만드는 방법

5. 머신러닝 알고리즘

머신 러닝(Machine Learning)

인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
컴퓨터가 학습 모형을 기반으로 주어진 데이터를 통해 스스로 학습하는 것

머신러닝의 3가지 요소

Task
Experience
Performance
Task를 달성하기 위해 경험을 통해 성능을 개선시킴

1) 분석하고자 하는 목표(T)를 정의

2) Experience를 정의하기 위한 데이터를 수집

3) Performance를 향상시키기 위한 Measure를 정의함

ex) 체스

E는 많은 체스 게임들의 경험 (체스를 두는 것)
T는 체스를 플레이하는 사건
P는 다음 경기에서 프로그램이 이길 확률

학습방법

지도학습(Supervised Learning)

Label이 있는 데이터에 대해서 분석하는 방법으로 과거의 데이터로 미래를 예측하는 방법

비지도학습(Unsupervised Learning)

Label이 없는 데이터에 대해서 분석하는 방법으로 데이터 나누거나 속성별로 분류할 때 사용

강화학습(Reinforcement Learning)

보상과 벌을 주어서 학습시키는 방법

결정트리(Decision Tree)

설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델
장점 : 결과 해석이 쉽고 빠름, 선형/비선형에 적용 가능
단점: 과도적합의 문제 조심, 분기점에서 오차 발생확률이 올라감

앙상블 모형

Bagging

boostrap aggregating의 약어로 데이터를 가방(bag)에 쓸어 담아 복원 추출하여 여러 개의 표본을 만들어 이를 기반으로 각각의 모델을 개발한 후에 결과를 하나로 합쳐 하나의 모델을 만들어 내는 것
ex) Randomforest

Boosting

Boosting도 Bagging과 동일하게 복원 랜덤 샘플링을 하지만, 가중치를 부여한다는 차이점
Bagging이 병렬로 학습하는 반면, Boosting은 순차적으로 학습시킵니다. 학습이 끝나면 나온 결과에 따라 가중치가 재분배
ex) AdaBoost, XGBoost, GradientBoost

추천모형

딥러닝(Deep Learning)

Deep Learning(딥러닝) 또는 Deep Neural Network라고 불리는 기술은 인공신경망의 발전한 형태로 볼 수 있음
인간의 뇌처럼 수많은 노드를 연결하여 이들의 노드 값을 훈련 시켜 데이터를 학습 시킴

합성곱신경망(Convolutional Neural Network(CNN))

기존의 방법은 데이터 -> 지식의 단계로 학습
데이터 -> 특징(feature) -> 지식의 단계로 학습을 시킴(예를 들어 사물인식에 있어서 특징정인 선이나 색을 먼저 추출하여 판단)

순환신경망(Recurrent Neural Network(RNN))

시계열 데이터 분석에 사용함
매순간마다 인공신경망 구조를 쌓아 올린 형태

이전 포스트

통계분석1

0개의 댓글