04.데이터 분석

ppm_Vely·2022년 6월 21일
1

데이터분석

목록 보기
4/4

1. 데이터 분석 방법론

효과적인 데이터 분석을 위하여 이를 체계화한 절차와 방법

Phase(단계), Task(태스크), Step(스텝)으로 3계층 구성

Phase ⊃ Task ⊃ Step

1-1. 분석 방법론 적용 모델

-폭포수

-프로토타입

-나선형

빅데이터 분석 방법론 참조 모델

분석기획

비즈니스 이해 및 범위 설정

프로젝트 정의 및 계획 수립

프로젝트 위헙계획 수립

데이터 준비

필요 데이터 정의

데이터 스토어 설계

데이터 수집 및 정합성 점검

데이터 분석

분석용 데이터 준비

텍스트 분석

탐색적 분석

모델링

모델평가 및 검증

시스템 구현

설계 및 구현

시스템 테스트 및 운영

평가 및 전개

모델 발전 계획 수립

프로젝트 평가 및 보고

[데이터 분석 방법론]

KDD (Knowledge Discovery in Database)

: DW, OLAP, DSS, SQL Query, 데이터 마이닝 Tool 등을 이용해서 데이터에서 잠재적인 유용한 지식 및 패턴을 발견하여 조직의 구조와 프로세스를 변경하는 데이터 분석 방법론

CRISP-DM

: 데이터 마이닝 전문가가 사용하는 일반적인 접근 방식을 설명한 가장 널리 사용되는 공개 표준 분석 모델

SEMMA

: SAS사가 주도로 만들어진 기술 중심, 통계 중심의 데이터마이닝 방법론

-Sampling

-Explore

-Modify

-Modling

-Assessment

2. 데이터 분석 방법

2-1.데이터 분석 방법 유형

○ 묘사적 데이터 분석(DDA - Descriptive Data Analysis)

:현재의 모습을 요약하여 기술

:수집된 데이터의 표현 : 평균, 표준편차, 빈도수, 백분위수

○ 탐색적 데이터 분석(EDA - Exploratory Data Analysis)

:수집된 데이터의 증상 탐색을 통한 가설 도출

:가능성이 큰 X-Y 관계 가설 도출

○ 확증적 데이터 분석(CDA - Confirmatory Data Analysis)

:도출된 가설을 검증

:p-value 기준 의사결정

○ 예측 데이터 분석(PDA - Predictive Data Analysis)

:관계식을 만들고, 최적 조건을 예측함

:의미있는 y=f(x) 함수의 모델 도출

3. 통계분석 (기술통계)

3-1. 통계분석이란?

관심 대상인 모집대상의 특성을 파악하기 위해

모집단으로부터 관련된 일부 자료(표본) 수집하고

수집된 표본의 자료를 요약하여 표본의 특성을 파악

표본의 자료를 이용하여 모집단의 특성에 대해 확률을 이용해 추론하는 분석

3-2. 데이터 유형

3-3. 기술통계분석

▶ 범주형 데이터

-막대그래프

-도수분포표

-파이차트

▶ 수치형 데이터

-산술평균

-중앙값

-최빈값

-기하평균 : 비율을 나타내는 자료 값, 곱셈으로 증가 감소하는 자료 값

-조화평균 : N개의 양수에 대하여 그 역수를 산술 평균한 것의 역수

-범위

-편차 : 평균 값과의 차이, 평균을 중심으로 편차를 모두 더하면 0이 됨

-분산 : 편차를 모두 더하면 0이 되기 때문에 제곱하여 계산한 것이 분산

-표준편차 : 원자료의 측정단위로 다시 전환하기 위해 제곱근을 계산한 것

-산포 : 자료가 중심위치로부터 어느 정도 흩어져 있는가를 나타냄

-사분위 : 상자도표(Box Plot)에서 비율(Q1,Q2,Q3,Q4)로 표시

-그래프 : 도수분포표, 히스토그램, 줄기잎 그래프, 상자도표, Cross Tabulation, 산점도

profile
오늘도 개발중인 ppm's Programming Log

0개의 댓글