4과목 빅데이터 결과 해석

SOOYEON·2022년 4월 5일

빅데이터분석기사

목록 보기

2/36

4과목

회귀모형 평가지표

회귀모형의 결정계수

결정계수

R² ; 상관계수 R의 제곱

선형 회귀 분석의 성능 검증지표로 많이 이용

회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율

1에 가까울수록 실젯값을 잘 설명

값의 범위

0 ≤ R² ≤ 1

독립변수의 개수가 많은 모형 평가에는 부적합

수정된 결정계수

적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수

적절하지 않은 변수들을 추가할수록 수정된 결정계수의 값은 감소

수정된 결정계수는 결정계수보다 항상 작음

Mallow’s Cp

수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 페널티를 부과한 통계량

Mallow’s Cp가 작을수록 실젯값을 잘 설명

혼동 행렬 평가지표

카파 통계량 Kappa Statistic

두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법

0~1 사이의 값을 가지며 1에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며,
0에 가까울수록 모델의 예측값과 실젯값이 불일치

정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명

K = Pr(a) - Pr(e) / 1 - Pr(e)

K : 카파 상관계수

Pr(a) : 예측이 일치할 확률

Pr(e) : 예측이 우연히 일치할 확률

적합도 검정 Goodness of Fit Test

개념

적합도 검정은 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법

유형

가정된 확률이 정해진 경우 or 아닌 경우 (정규성 검정)로 분리
카이제곱 검정, 샤피로-윌크 검정, 콜모고로프-스미르노프 검정 (= K-S 검정), Q-Q Plot등

적합도 검정 ; 가정된 확률 검정

1. 가정된 확률 검정

R 언어에서 chisq.test() 함수를 이용하여 나온 결과의 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다.

적합도 검정 ; 정규성 검정

2. 정규성 검정 Normality Test

정규성 가정을 만족하지 못하면 모형의 타당성이 떨어지고 신뢰성이 낮다.

정규성 검정 : 샤피로-윌크 검정, 콜모고로프-스미르노프 검정

시각화 검정 : 히스토그램, Q-Q Plot (Quantile-Quantile Plot)

1. 샤피로-윌크 검정 (Shapiro-Wilk Test)

샤피로 윌크 검정은 데이터가 정규분포를 따르는지 확인하기 위한 검정 방법

R에서 sharpiro.test() 함수를 이용해서 검정, 귀무가설은 ‘표본은 정규분포를 따른다.’

sharpiro.test() 함수의 인수에는 1개의 수치형 벡터만 사용 가능

데이터의 수는 3개부터 5000개 이하만 사용 가능

일반적으로 표본의 수가 많을 경우 (2000개 이상) : K-S검정,
데이터가 적을 경우 : 샤피로-윌크 검정사용 (절대적인 수치는 아님)

2. 콜모고로프-스미르노프 적합성 검정(Kolmogorov-Smirnov Goodness of Fit Test; K-S 검정

K-S 검정은 데이터가 어떤 특정 분포를 따르는가 비교하는 검정이다.

비교 기준이 되는 데이터를 정규분포를 가진 데이터로 두어서 정규성 검정을 실시할 수 있다.

R에서 ks.test() 함수를 이용 (인자는 x, y, alternative 등)

Q-Q Plot (Quantile-Quantile Plot)

그래프를 이용하여 시각적으로 정규성 가정을 검정

대각선 참조선을 따라 분포하면 정규성 가정을 만족

한 쪽으로 치우치면 정규성 가정에 위배되었을 가능성 ↑

치우침의 판단 기준이 모호함 → 결과 해석이 주관적 → Q-Qplot은 보조용으로 사용하는 것이 좋다.

산점도 행렬

다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프

버블 차트

산점도에서 데이터 값을 나타내는 점 또는 마크에 여러가지 의미를 부여하여 확장된 차트

비즈니스 기여도 평가 지표(기법)

TCO 총소유비용 Total Cost of Ownership

하나의 자산을 획득하려 할 때, 주어진 기간동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용

ROI 투자대비효과 Return of Investment

자본 투자에 따른 순 효과의 비율을 의미 (== 투자 타당성)

계산식 : (누적 순 효과/ 총 비용) * 100(%)

NPV 순현재가치 Net Present Value

특정 시점의 투자 금액과 매출금액의 차이를 이자율을 고려하여 계산한 값
예상 투자 비용의 할인 가치를 예상 수익의 할인가치에서 공제했을 때,
나온 값을 합한 금액 (== 미래시점의 순이익 규모)

IRR 내부 수익률 Internal Rate of Return

순현재가치를 0으로 만드는 할인율 (== 연단위 기대수익 규모)

PP 투자 회수기간 Payback Period

누계 투자금액과 매출금액의 합이 같아지는 기간
프로젝트 시작 시점부터 누적현금 흐름이 흑자로 돌아서는 시점까지의 기간
(== 흑자 전환시점)

비즈니스 기여도 평가 고려사항

효과 검증
- 데이터 모델링 과정을 통해 검출률 증가, 향상도 개선 등의 효과를 제시
성능 검증
- 시뮬레이션을 통해 처리량, 대기 시간, 대기 행렬의 감소를 통한 성능 측면의 효과를 제시
중복 검증
- 타 모델링과의 중복에 따른 효과를 통제, 제시할 수 있어야 함
- 단위 프로젝트 별 수익과 비용으로 평가하는 것이 원칙
최적화 검증
- 최적화를 통해 목적함수가 증가한 만큼의 효과를 제시함

랜덤 서브샘플링

모집단으로부터 조사의 대상이 되는 표본을 무작위로 추출하는 기법

K-fold Cross Validation

데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분집합으로 나누고,
그 중 1개를 평가 데이터로, 나머지 K-1개를 훈련 데이터로 선정하여 분석 모형을 평가하는 기법

LOOCV ; Leave-One-Out Cross Validation

전체 데이터에서 1개 샘플 만을 Test에 사용하고 나머지 N-1개는 학습에 사용하고,
이 과정을 N번 반복하는 기법

K-fold와 같은 방법을 사용하며, 이때 K는 전체 데이터 N과 같다 (K=N)
수행 시간과 계산량이 많다.
작은 크기의 데이터에 사용하기 좋다.

LpOCV ; Leave-p-Out Cross Validation

LOOCV에서 1개의 샘플이 아닌 P개의 샘플을 테스트에 사용하는 교차 검증 기법

즉 n! / (n - p)! p! 만큼 교차 검증이 반복되므로 계산 시간에 대한 부담이 매우 크다.

빅데이터 시각화 도구

차트 블록 Chart Blocks

코딩 없이 스프레드 시트, 데이터 베이스형태를 쉽게 가시화하는 시각화 도구
차트 블록은 웹 기반 차트 구현 (트위터, 페이스북 등 공유 가능)한다.

SOOYEON

이전 포스트

1과목 빅데이터 분석기획

다음 포스트