해당 글은 제로베이스데이터스쿨 학습자료를 참고하여 작성되었습니다
실험계획법(experimental design)
반응변수
요인/인자(Factor)
인자수준
1) 각 모집단은 정규 분포를 따른다
2) 각 모집단은 동일한 분산을 갖는다
3) 각 표본은 독립적으로 추출되었다
가설
실험의 가정
반복의 원리: 실험을 반복해서 실행해야 함
랜덤화의 원리: 각 실험의 순서를 무작위로 해야함
블록화의 원리: 제어해야 할 변수가 있다면 인자에 영향을 받지 않도록 조건을 묶어서 실험해야 함
일원 분산분석
이원 분산분석
다원 분산분석
한 개의 반응변수와 한 개의 독립인자
반응 변수 : 연속형 변수만 가능
독립 인자 : 이산형 또는 범주형 변수만 가능
한 개의 반응 변수와 두 개의 독립 인자로 분석하는 방법
상호작용(Interatction effect)
자료가 연속적으로 생성
대부분의 데이터 형태가 연속형이나 이산형 정의하여 분석
일정 시차(간격)를 두고 관측되는 형태의 데이터
대부분 이산형 데이터를 분석
예측
시계열 특성 파악
이동 평균 모형(moving average)
자기 상관 모형(Autocorrelation)
ARIMA(Autoregressive Integrated Moving Average)
지수평활법
경향/추세(trend)
계절성(seasonality)
주기성(cycle)
불규칙요인(Irregular movements)
인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야
컴퓨터가 학습 모형을 기반으로 주어진 데이터를 통해 스스로 학습하는 것
Task
Experience
Performance
Task를 달성하기 위해 경험을 통해 성능을 개선시킴
1) 분석하고자 하는 목표(T)를 정의
2) Experience를 정의하기 위한 데이터를 수집
3) Performance를 향상시키기 위한 Measure를 정의함
ex) 체스
E는 많은 체스 게임들의 경험 (체스를 두는 것)
T는 체스를 플레이하는 사건
P는 다음 경기에서 프로그램이 이길 확률
설명변수(X) 간의 관계나 척도에 따라 목표변수(Y)를 예측하거나 분류하는 문제에 활용되는 나무 구조의 모델
장점 : 결과 해석이 쉽고 빠름, 선형/비선형에 적용 가능
단점: 과도적합의 문제 조심, 분기점에서 오차 발생확률이 올라감
Boosting도 Bagging과 동일하게 복원 랜덤 샘플링을 하지만, 가중치를 부여한다는 차이점
Bagging이 병렬로 학습하는 반면, Boosting은 순차적으로 학습시킵니다. 학습이 끝나면 나온 결과에 따라 가중치가 재분배
ex) AdaBoost, XGBoost, GradientBoost
Deep Learning(딥러닝) 또는 Deep Neural Network라고 불리는 기술은 인공신경망의 발전한 형태로 볼 수 있음
인간의 뇌처럼 수많은 노드를 연결하여 이들의 노드 값을 훈련 시켜 데이터를 학습 시킴
기존의 방법은 데이터 -> 지식의 단계로 학습
데이터 -> 특징(feature) -> 지식의 단계로 학습을 시킴(예를 들어 사물인식에 있어서 특징정인 선이나 색을 먼저 추출하여 판단)
시계열 데이터 분석에 사용함
매순간마다 인공신경망 구조를 쌓아 올린 형태