CART 기법은 각 독립변수를 이분화하는 과정을 반복하여 이진트리 형태를 형성함으로써 분류를 수행하는 알고리즘
가장 널리 사용되는 의사결정나무 알고리즘
가장 성취도가 좋은 변수 및 수준을 찾는 것에 중점
개별 입력변수뿐만 아니라 독립변수들의 선형 결합 중에서 최적의 분리를 구할 수 있음
가지치기를 사용할 때 학습자료를 사용하는 알고리즘
목표변수가 이산형이어야 함
불순도의 척도로 엔트로피 지수 사용
CART와는 다르게 각 마디에서 다지 분리(Multiple Split)가 가능하며 범주형 독립변수에 대해서는 범주의 수만큼 분리가 일어남
AID (Automatic Interaction Detection)를 발전시킨 알고리즘
가지치기 하지 않고 나무를 적당한 크기에서 성장을 중지하며 독립변수가 이산형 변수이어야 함
불순도의 척도로 카이제곱 통계량을 사용
분리 방법은 다지 분리(Multiple Split) 사용
분리 변수의 각 범주가 하나의 부 마디(Sub-Node)를 형성
변수의 선택에서 범주의 개수가 많은 범주형 변수로의 편향이 심각한 CART의 문제점을 개선한 알고리즘
변수 선택 편향이 거의 없음
분리 규칙은 분리 변수의 선택과 분리점 선택의 두 단계로 나누어 시행
불순도의 척도로 카이제곱 통계량을 사용
분리 방법은 이진 분리(Binary Split) 사용
알고리즘 | 이산형 목표변수 | 연속형 목표변수 |
---|---|---|
CHAID (다지분리) / QUEST (이진분리) | 카이제곱 통계량 | 분산 분석(ANOVA)에서 F-통계량 |
CART (이진분리) | 지니지수 | 분산의 감소량 |
C4.5, C5.0 (다지분리) | 엔트로피 지수 | - |
의사결정 나무 성장 → 가지치기 → 타당성 평가 → 해석 및 예측
분석의 목적과 자료구조에 따라 적절한 분리 규칙 및 정지규칙을 지정, 분리 규칙을 찾아서 나무를 성장시키는 과정
분류 오류를 크게 할 위험이 높거나 부적절한 추론규칙을 가지 또는 불필요한 가지를 제거하는 단계
이익도표, 위험 도표 또는 평가 데이터를 이용하여 교차 타당성 등을 이용한 평가 수행 단계
구축된 의사결정 나무 모형을 해석하고, 분류 및 예측 모형을 설정하여 데이터의 분류 및 예측에 활용하는 단계
중심점, 이웃점, 경계점, 잡음점
ARIMA(0,0,0)
ARIMA(0,1,0)
ARIMA(p,0,0)
ARIMA(0,0,q)
데이터 분석 모형을 정의할 때 모델 내부에서 확인이 가능한 변수
입력층과 출력층으로만 구성된 최초의 인공 신경망
1957년 코넬 항공 연구소의 프랑크 로젠블라트에 의해 고안됨
계단함수, 부호함수, 선형함수, 시그모이드 함수, tanh 함수, ReLU함수
자카드 계수는 두 집합에 대한 합집합과 교집합에 대한 비(Proportion) 이다.
여러 현상이나 사건에 대한 측정치를 개별적으로 분석하지 않고 동시에 분석하는 통계적 기법
각 변수를 개별적으로 분석하지 않고 동시에 분석하여 여러 변수 간의 관계성을 고려함
다중 회귀 분석, 다변량 분산 분석, 판별 분석, 다차원 척도법, 군집 분석, 요인 분석 등
개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화룰 시각적으로 표현하는 분석 방법
데이터 축소
데이터에 포함되는 정보를 도출하기 위한 탐색 수단으로 활용
의미 부여
데이터가 만들어진 현상이나 과정에 고유의 구조로 의미를 부여
기하적 표현
찾아낸 패턴과 구조를 저차원의 공간에 기하적으로 표현
다차원 분석에 의해 설명되지 않는 분산의 불일치 정도로서 대상간의 실제 거리와 추정된 거리 사이의 오차이다.
상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
고유벡터의 변환되는 스케일 정도를 나타내는 상숫값
행렬 변환 결과가 자기 자신의 상수 배가 되는 0이 아닌 벡터
주성분 분석, 다차원 척도법, t-SNE, LDA 등