KDD(Knwledge Discovery in Databases)
- 프로파일링 기술 기반
- 통계적 패턴과 지식을 탐색
- 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화에서 사용
KDD 분석 절차
- 데이터셋 선택 (Selection)
- 데이터 전처리 (Preprocessing)
- 데이터 변환 (Transformation)
- 데이터 마이닝(Data Mining)
- 데이터 마이닝 결과 평가 (Interpretation Evaluation)
- 각 철차에서 필요한 경우, 이전 단계로 돌아가 실행할 수 있음
1. 데이터셋 선택
- 비즈니스 도메인에 대한 이해
- 프로젝트 목표 생성 및 확인
2. 데이터 전처리
- 잡음(Noise), 이상치(Outliner) , 결측치(Missing value) 제거
3. 데이터 변환
- 목적에 맞는 변수, 생성, 선택, 차원 축소, 데이터 변환 실행
= 학습데이터(Training Data)와 검증데이터(test Data)로 분리
4. 데이터 마이닝
- 목적에 적합한 데이터 마이닝 도구, 기법 사용
- 알고리즘 선택, 패턴 탐색, 데이터 분류, 예측작업
5. 데이터 마아닝 결과 평가
- 분석 결과에 대한 평가, 해석, 분석목적성취를 평가
- 데이터 분석 결과를 업무에 활용