데이터 변경 및 요약
- 데이터 마트 : 데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것으로, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스
- 요약변수 : 수집된 정보를 분석에 맞게 종합한 변수, 재활용성이 높다(합계, 횟수 등)
- 파생변수
- 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
- 주관적이므로 논리적 타당성을 갖추어 개발
- 세분화, 고객행동 예측, 캠페인 반응 예측
- reshape : melt(), cast()
- sqldf : R에서 sql의 명령어를 사용 가능하게 해주는 패키지, SAS의 proc sql와 같은 역할
- plyr : apply 함수 기반 배열로 치환(split - apply - combine)
- multi-core를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함
- 데이터 테이블(data.table)
- R에서 가장 많이 사용하는 데이터 핸들링 패키지
- 큰 데이터를 탐색, 연산, 병합하는 데 아주 유용, 속도 빠름
데이터 가공
- head, tail : 6개
- summary
- 수치형 : 최대값, 최소값, 평균, 1사분위, 2사분위, 3사분위
- 명목형 : 명목값, 데이터 개수
- 변수 중요도
- Wik’s Lambda = 집단내분산/총분산
- 변수의 구간화
기초 분석 및 데이터 관리
- 데이터 EDA : 데이터 분석에 앞서 데이터의 특징을 파악하고 데이터를 다양한 각도로 접근
- summary() : 기초통계량 확인
- 결측값 처리 방법
관측치가 있지만 실상은 default값이 기록된 경우에도 결측치로 처리(X)
- 단순 대치법
- complete analysis : 결측값 레코드 삭제
- 평균 대치법
- 비조건부 평균 대치법 : 관측데이터의 평균 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치법
- 단순확률 대치법 : 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법
- Hot-deck, nearest neighbor 방법
- 다중 대치법
- 단순 대치법을 한 번에 하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
- 1단계 : 대치 → 2단계: 분석 → 3단계 : 결합
- 추정량의 표준오차의 과소추정 또는 계산의 난해성 문제가 보완된 방법
- R에서 결측값 처리
- complete.cases() : 결측값이 없으면 True, 있으면 False
- is.na()
- centralImputation() : 중위수, 최빈값 대치 (DMwR 패키지)
- knnImputation() : (DMwR 패키지)
- amelia()
- 랜덤포레스트 패키지의 rfImute()
- time-series-cross-sectional-data set(여러 국가에서 매년 측정된 자료)에서 활용
- 이상값 인식과 처리
- 이상치 : 설명변수의 관측에 비해 종속변수 값이 상이한 값
- Bad data : 의도하지 않게 잘못 입력한 경우
- 최대값과 최소값은 이상치로 볼 수 없음
- 이상값 검색을 활용한 응용시스템 : 부정사용방지 시스템
- 이상값의 인식 방법
- ESD(Extreme Studentized Deviation) : 평균으로부터 3표준편차 떨어진 값
- 사분위수 기반
- 이상값 : Q1-1.5(Q3-Q1) < data < Q3+1.5(Q3-Q1)
- 극단값 절단 방법
- 기하평균을 이용한 제거 (geo_mean)
- 하단,상단 %이용한 제거
- 극단값 조정 방법
- 상한값과 하한값을 벗어나는 값을을 하한, 상한값으로 바꾸어 활용하는 방법
- 극단값 절단 방법을 활용해 데이터를 제거하는 것 보다는 극단값 조정 방법을 이용하는 것이 데이터 손실율도 적고, 설명력도 높아짐
