데이터 분석모형 평가지표
- 데이터 분석모형의 설계와 함께 이를 평가하기 위한 평가지표 수립
- 상관 분석모형의 경우 두 변수 사이의 선형적 관계를 평가하기 위해 상관계수 사용
머신러닝 모형의 평가지표
- 혼동행렬(Confusion Matrix) : 분류 목적의 머신러닝 분석모형 평가지표
- 오차비율, 정확도, 민감도, 특이도, 정밀도, 거짓 긍정률, 카파값, F-Messure 등 사용
ROC(Receiver Operating Curve) 곡선
- 머신러닝 성능평가 지표들 중 거짓긍정률(FP rate; False Positive)과 참긍정률(TP rate: True Positive)을 이용하여 표현한 곡선
- 데이터 분석모형 평가 결과 TP rate 값이 클수록, FP rate 값이 작을수록 성능이 우수함
데이터 분석모형 성능추적
- 예측신호의 추적신호(TS; Tracking Signal)를 구하여 예측오차(e_i=y_i-(y^)_i)를 계속적으로 추적
데이터 분석모형 진단도구
- 데이터 프로파일링, 평가지표 활용 진단, 체크리스트, 오류 데이터 확인 방법 등 이용
- 진단절차 : 품질기준 선정, 품질이슈 조사, 데이터관리 문서 수집, 진단대상 중요도 평가, 진단대상 선정, 핵심 데이터 항목 정의, 데이터 프로파일링, 업무규칙 정의
Data Profiling
- 데이터 소스에 대해 일련의 데이터 검사 절차를 수행함으로써 데이터에 관한 중요한 정보와 통계치 수집. 데이터베이스에 있는 방대한 정보로부터 숨어있는 지식을 자동적으로 추출
교차검증
- 두 변수들 사이의 선형 정도(교차성)의 교차 타당성 검증. 카이제곱 검정통계량 이용
- 적합도 검정 : 관찰도수와 기대도수 사이의 적합도 여부 검정
- 독립성 검정 : 두 변수 사이에 관련성이 있는지를 알아봄
- 동일성 검정 : 모집단의 표본이 범주로 주어졌을 때 이들 각 모집단의 분포가 서로 동일한지를 검정
학습 데이터 기반 교차검증 방법
- 홀드아웃 교차검증(Hold-out Cross Validation) : 훈련 데이터세트를 이용하여 데이터 분석모형을 구축하고 시험 데이터세트를 이용하여 모형의 성능평가
- 다중 교차검증(k-fold Cross Validation) : 데이터세트를 훈련 데이터와 검증 데이터로 나누어 모델링. 성능평가를 k회 반복하며, 모든 k개 중첩에 대한 성능평가 결과들에 대한 평균치를 통해 최종적인 모델의 성능평가
모수 유의성 검정
- 모수에 대한 가설을 세우고 가설의 옳고 그름을 확률적으로 판정
- 가설 검정 절차 : 가설 설정 → 유의수준 결정 → 검정통계량 계산(유의확률) → 유의확률이 유의수준보다 작으면(또는 같거나) 귀무가설 기각
적합도 검정
- 모집단의 분포에 대한 가정이 옳은지를 실제 관측된 자료를 토대로 검정
- n개의 표본 자료를 K개의 범주로 분류하여 각 범주에 속하는 관찰도수와 귀무가설 하에서 주어진 확률 분포에 대해 각 범주에 속하는 기대도수들 간에 잘 맞는지(적합한지)를 검정. 카이제곱 검정 통계량 이용
과대적합(Overfitting)
- 제한된 학습 데이터세트(모델 훈련에 사용한 한정된 데이터)에 너무 과하게 특화되어 새로운 데이터에 대한 오차가 커지는 현상
미적합(Underfitting)
- 분석의 편의상 단순한 데이터 분석모형을 적용하여 오차가 커지는 현상. 예를 들어 곡선 현태의 학습 데이터를 단순하게 직선으로 예측하는 경우
데이터 준비 및 처리 단계에서의 매개변수 최적화
- 매개변수 : 독립변수와 종속변수 간에 직접적인 관련은 없으나 중간에서 매개자 역할을 하여 두 변수 간에 간접적인 영향을 맺도록 하는 변수
- 매개변수 최적화 : 데이터 준비 및 처리과정에서 데이터 최적화를 위한 구체적인 방법을 설정하고 적용함. 데이터 품질의 기본요소(정확성, 완전성, 적시성, 일시성) 검증. 데이터 품질기준을 상세화하고 하위 품질기준을 정의함
머신러닝에서의 매개변수 최적화
- 학습 데이터세트를 이용하여 최적의 매개변수 도출
- 예측오차 : 평균절대오차, 평균제곱오차, 평균제곱근오차, 표준오차 등 평가
변수 유형에 따른 데이터 분석모형
- 독립변수(연속형)-종속변수(연속형)의 경우 : 회귀 분석, 인공신경망, k-평균 군집화 등
- 독립변수(연속형)-종속변수(범주형)의 경우 : 로지스틱 회귀 분석, 판별 분석, k-평균 군집화 등
데이터 분석모형 선정 시 주요 고려사항
- 비즈니스 도메인 이슈, 결과물의 활용 형태, 데이터세트의 형태 및 양, 변수의 특성, 데이터 변환 및 전처리 과정에서 얻은 사전 데이터 이해 및 통찰력, 분석가의 경험 및 능숙도 등
머신러닝 기법 선정 시 가이드라인
- 배경이론이나 확률적 접근이 가능 : 로지스틱 회귀모형, 나이브 베이즈 기법
- 분류 결과는 중요하나 분류 확률값 자체는 상대적으로 덜 중요함 : 나이브 베이즈
- 분석 모델링에 엄격한 기준 존재, 결과 계수값 등에 유의성 검정 요구 : 로지스틱 회귀 분석
- 어떤 변수가 목표변수 분류에 중요한지 탐색, 목표변수 분류 규칙 도출 : 의사결정트리
- 결과 분류의 이유나 규칙 등에 대한 설명보다 예측의 정확도가 중요 : 인공신경망, 서포트벡터머신
- 모수적 접근이 아닌 데이터의 유사성 등에 근거한 데이터 분류 : k-최근접 이웃
- 기존에 수행한 분류 모델링의 성능이나 정확도 개선 : 랜던 포레스트, 앙상블 분석
데이터 시각화(Data Visualization)
- 다양하고 방대한 데이터를 탐색하는 가운데 데이터의 특징을 쉽고 빠르게 알 수 있도록 도와주며, 데이터에 감춰진 의미를 찾아내어 이를 논리적으로 이해하는 데 도움을 줌
- NCS의 정의 : 인간의 시지각 능력을 토대로 데이터에 대한 이해와 설득에 도움을 주기 위해 그림이나 도형 등의 그래픽 요소들을 이용하여 데이터를 묘사하고 표현하는 것
- 목적 : 정보전달 및 설득
데이터 분석결과 해석 방법
- 설명 : 전달하려는 메시지와 주요 분석결과 설명
- 탐색 : 데이터에 숨겨져 있는 관계와 패턴을 찾음
- 표현 : 데이터 분석결과에 대한 공감을 불러일으키기 위한 기능 제공
데이터 분석 및 결과 해석 과정(Colin)
- 데이터 수집 및 저장 → 데이터 예비처리 및 변형 → 그래픽 엔진을 이용한 시각화 → 시각 및 인지 프로세싱
분석결과의 스토리텔링
- 컴퓨터로 작업하기 전 대충의 아이디어를 종이나 보드에 그리는 스케치 작업
- 절차 : 사용자별 데이터세트 및 정보 정의 → 사용자 시나리오 작성 → 스토리보드 기획
스토리텔링 시각화 원칙(Edward Thufte)
- 시각적 비교 강화, 인과관계의 제시, 다차원 변수의 표시, 효과적 정보전달을 위한 범례 및 레이블 사용, 명확한 콘텐츠 전달, 공간적 순서 배치, 정량적 자료에 대한 양적 정보의 표현
데이터 분석결과의 이해
- 시간, 공간, 분포, 관계 및 비교 시각화 등
기업의 비즈니스 기여도 평가
- 데이터 분석결과가 비즈니스의 효율성(매출 증대, 비용 감소, 고객 증가 등) 향상에 어느정도 기여했는지를 판단
- 분석결과 적용(기업) : 재무분석, 산업 분석, 프로세스 분석, 시스템 개발 분석, 신규 상품 및 서비스 개발, 스타트업 기업의 신규 사업 경제성 분석, 가치창출, 의사결정 등에 활용
데이터 시각화 프로세스
- 3단계 : 구조화 → 시각화 → 시각표현
- 7단계 : 획득 → 구조화 → 추출 → 마이닝 → 시각화 → 재정의 → 상호작용
데이터 시각화 기술
- 기하학, 아이콘 기반, 화소지향적, 위계적, 그래프, 하이브리드, 왜곡, 동적 인터랙션 기술 등
- 시각적 표현 : 크기, 색상, 위치, 네트워크, 시간, 다중표현 등
- 관계 표현 : 선, 지도, 다이어그램, 트리 등
데이터 시각화 방법
- 차트 통계 도구, 프로그래밍, 지도, 일러스트레이션, SPSS, 자동화 도구, 구글 제공 도구 등
시간 시각화
- 관측값이 시간적 순서(주로 시계열 데이터)를 가지는 경우. 주가, 매출액, 실업률, 환율 등. 관측시점들 사이의 간격(시차)이 표현 방법에 중요한 역할을 담당
- 막대 그래프, 누적 막대 그래프, 점 그래프 등
공간 시각화
- 좌표값을 가진 데이터의 경우 지도상에서 표현(직관적 시각화), 구글 및 네이버 등의 지도
분포 시각화
- 구분 단위로 분류. 세부 분류 등과 같은 가짓수의 경우 가능한 선택들. 샘플의 측정 범위에서의 분류 결과를 나타내기 위해 사용
- 파이 차트, 도넛 차트, 누적 막대 그래프 등
관계 시각화
- 서로 다른 변수들 사이의 관계를 시각적으로 표현. 하나의 변수가 다른 변수에 어떤 영향을 주는지에 대한 분석결과 해석
- Scatter Plot(산점도), 버블 차트 등
비교 시각화
- 비교 대상의 변수가 둘 이상인 경우 변숫값을 비교하며 변수들 사이의 관계 이해. 다양한 변수의 특징을 한 번에 비교함으로써 전체적인 정보 표현이 가능
- 체르노프 페이스, 스타 차트, 평행좌표 그래프, 히트맵 등
인포그래픽(Infographics(Information + Graphics))
- 다량의 정보를 효율적으로 표현. 차트, 지도, 다이어그램, 로고, 일러스트레이터 등 이용
빅데이터 분석모형 구축 프로세스
- 데이터 수집 → 데이터 정제 → 분석모형 구축 → 예측 및 모형 업데이트 → 시각화 및 대시보드 구축
BI(Business Intelligence)
- 많은 데이터가 혼재되어 있는 상태에서 의사결정에 필요한 데이터를 정제하여 필요한 만큼 적절하게 제공하는 기법과 함께 데이터를 수집, 분석하여 이를 토대로 기업의 올바른 의사결정을 내릴 수 있도록 해줌
- 분석결과 자동화 시스템 주요 기능 : 엔터프라이즈 레포팅, 통계 및 데이터 마이닝, 보고서 Alerting, Cube 분석(예측분석결과 제공), Adhoc 쿼리 작성 및 분석
머신러닝 기반의 데이터 분석모형 절차
- 비즈니스 이해 및 정의 → 데이터 수집 → 데이터 전처리와 탐색 → 데이터 모델 훈련 → 모델 성능평가 → 모델 성능향상 및 적용
데이터 분석결과 사용자 분류
- 내부 : 의사결정자, 관리자, 감독, 직원 등
- 외부 : 고객, 청중 및 개인 등
시각화 활용 목적 검토
- 사업적 요구사항, 기술적 요구사항, 시각화 품질 요건 검토
- 절차 : 사용자별 데이터세트 및 정보 기술 → 사용자 시나리오 작성 → 사업 및 기술적 요구사항 검토 → 품질요건 반영 → 스토리보드 기획 및 개발
분석결과 모니터링 및 문서화 시 주요 고려사항
- 문서화 : 구조화된 데이터 정렬, 그룹, 합계, 필터링, 형식화의 과정을 거쳐 최종적으로 사전에 정의된 양식에 구조화된 데이터를 처리하는 프로세스
- 최근 많은 보고서들이 모바일 기기에 표기되는 방식 제공
- 보고서 작성 : 읽기용(보고 받는 사람에게 좀 더 구체적인 자료 제공, 도표와 설명을 잘 배합하여 자세한 내용 구성)과 발표용(요약본, 그래프, 표 등 활용, 수치 시각화 표현, 한 눈에 보아서 전체 내용 파악 및 이해하기 쉽게 구성)으로 구분
- 보고서 구성 : 서식 디자인, 목차 구성, 작성 기준 수립, 결과보고, 시사점 및 제언 등 작성
보고서 작성 원칙
- 독자 이해, 명확한 문장의 흐름, 객관성, 간결성, 표 및 그래프 활용
데이터 분석결과의 산출물
- 데이터분석 계획서, 데이터 전처리 및 변환 수행 절차, 훈련 및 예측 결과 비교, 비즈니스 기여도 평가 계량 자료, 데이터 분석용 스크립트 코드 및 주석 등, 데이터 분석 모델 유지보수 및 교육을 위한 가이드 및 매뉴얼, 효과검증(POC(Proof of Concept), 솔루션이나 접근 방법 등 개념 검증을 위해 업체들에게 요청하여 수행하는 작업), 프로젝트 수행 계획 및 결과 보고서, 시스템 연동 개발 시 개발 요건 정의서, 화면 설계 정의서 등
데이터 분석결과 최적화 과정
- 분석목적에 따른 보고서 배포 → 산출물에 대한 문서화 → 모델 개선 결과의 현업 적용 최적화
머신러닝 기반의 데이터 분석모형 모니터링 절차
- 데이터 분석의 목적과 비즈니스 문제 이해 →데이터 확보 및 수집 → 분석환경 구축 및 데이터 전처리 → 머신러닝 기법에 따른 모델 훈련 → 모델 성능평가 → 산출물 및 문서관리
데이터 분석결과 자동화 시스템
- OLTP(Online Transaction Processing, 온라인 트랜잭션 처리) : 데이터베이스에 데이터 저장 및 처리. 은행 창구 업무나 항공사 예약 등의 데이터 처리
- OLAP(Online Analytical Processing, 온라인 분석 처리) : 데이터웨어하우스에서 데이터 저장 및 처리. 사용자의 분석적 질의 처리(View 등) 솔루션을 이용하여 대량의 데이터를 실기간으로 정확하게 분석하고 예측
데이터 분석모형 리모델링 절차
- 데이터 수집 → 데이터 저장 → 데이터 처리 → 데이터 분석 → 분석결과 평가 → 사회물리적 환경 적용 → 피드백
데이터 분석모형 리모델링 운영 프로세스
- 운영계획 수립 → 시스템 구축 → 분석 및 운영
데이터 저장 시스템 운영 시 주요 고려사항
- 데이터베이스 용량, 장애 대응, 사용자 권한 설정, 시스템 및 데이터베이스 백업 및 복구 등
소프트웨어 운영 계획 수립 절차
- 저장관리 시스템 설치 및 운영계획 수립 → 데이터베이스 용량 계획 수립 → 관련 소프트웨어 운영계획 수립
데이터 분석모형 리모델링 후 분석결과 재활용 사례
- 효과검증(POC), 서비스 적용 및 구현, 반복적 피드백 등