데이터 마이닝의 이해
데이터 마이닝의 종류
데이터 마이닝 방법에 따른 분류
지도학습: 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것이다.
비지도학습: 지도학습과는 달리 정답을 알려주지 않고 학습하는 것이다.
데이터 마이닝 분석 목적에 따른 분류
데이터 마이닝의 프로세스
데이터 분할
데이터를 훈련용, 검정용, 평가용의 세가지 데이터로 분할한다.
훈련용 데이터: 모델을 구출하기 위해 활용됨
검정용 데이터: 구축된 모델이 적합한지 검증함
평가용 데이터: 최종적으로 구축된 모델의 성능을 평가하는데 사용함
- 참고
∙ 파라미터(매개변수) : 모델이 구축되는 과정에서 사람의 개입이 없이 박견되는 최적의 값으로 회귀분석의 회귀계수, 인공신경망의 가중치 등을 예로 들 수 있다.
∙ 하이퍼파라미터(초매개변수) : 모델 구축 외적인 요소로 분석 수행자가 찾아주어야 하는 최적의 값으로 뒤에서 배우게 될 인공신경망의 은닉 층의 수, 은닉 노드의 수, k-NN의 k값을 예로 들 수 있다.
데이터 분할을 통한 검증
오즈(Odds)
로짓변환
시그모이드 함수
시그모이드 함수 : 로지스틱 회귀분석과 인공신경망 분석에서 활성화 함수로 활용되는 함수
로짓 함수와 역함수 관계
의사결정나무
분석 과정
앙상블 분석 개요
앙상블 분석의 종류
참고 블로그
시그모이드 그래프