효과적인 데이터 분석을 위하여 이를 체계화한 절차와 방법
Phase(단계), Task(태스크), Step(스텝)으로 3계층 구성
Phase ⊃ Task ⊃ Step
-폭포수
-프로토타입
-나선형
비즈니스 이해 및 범위 설정
프로젝트 정의 및 계획 수립
프로젝트 위헙계획 수립
↓
필요 데이터 정의
데이터 스토어 설계
데이터 수집 및 정합성 점검
↓
분석용 데이터 준비
텍스트 분석
탐색적 분석
모델링
모델평가 및 검증
↓
설계 및 구현
시스템 테스트 및 운영
↓
모델 발전 계획 수립
프로젝트 평가 및 보고
: DW, OLAP, DSS, SQL Query, 데이터 마이닝 Tool 등을 이용해서 데이터에서 잠재적인 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 분석 방법론
: 데이터 마이닝 전문가가 사용하는 일반적인 접근 방식을 설명한 가장 널리 사용되는 공개 표준 분석 모델
: SAS사가 주도로 만들어진 기술 중심, 통계 중심의 데이터마이닝 방법론
-Sampling
-Explore
-Modify
-Modling
-Assessment
:현재의 모습을 요약하여 기술
:수집된 데이터의 표현 : 평균, 표준편차, 빈도수, 백분위수
:수집된 데이터의 증상 탐색을 통한 가설 도출
:가능성이 큰 X-Y 관계 가설 도출
:도출된 가설을 검증
:p-value 기준 의사결정
:관계식을 만들고, 최적 조건을 예측함
:의미있는 y=f(x) 함수의 모델 도출
관심 대상인 모집대상의 특성을 파악하기 위해
모집단으로부터 관련된 일부 자료(표본) 수집하고
수집된 표본의 자료를 요약하여 표본의 특성을 파악
표본의 자료를 이용하여 모집단의 특성에 대해 확률을 이용해 추론하는 분석
-막대그래프
-도수분포표
-파이차트
-산술평균
-중앙값
-최빈값
-기하평균 : 비율을 나타내는 자료 값, 곱셈으로 증가 감소하는 자료 값
-조화평균 : N개의 양수에 대하여 그 역수를 산술 평균한 것의 역수
-범위
-편차 : 평균 값과의 차이, 평균을 중심으로 편차를 모두 더하면 0이 됨
-분산 : 편차를 모두 더하면 0이 되기 때문에 제곱하여 계산한 것이 분산
-표준편차 : 원자료의 측정단위로 다시 전환하기 위해 제곱근을 계산한 것
-산포 : 자료가 중심위치로부터 어느 정도 흩어져 있는가를 나타냄
-사분위 : 상자도표(Box Plot)에서 비율(Q1,Q2,Q3,Q4)로 표시
-그래프 : 도수분포표, 히스토그램, 줄기잎 그래프, 상자도표, Cross Tabulation, 산점도