회귀모형의 결정계수
R² ; 상관계수 R의 제곱
선형 회귀 분석의 성능 검증지표로 많이 이용
회귀 모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율
1에 가까울수록 실젯값을 잘 설명
0 ≤ R² ≤ 1
독립변수의 개수가 많은 모형 평가에는 부적합
적절하지 않은 독립변수를 추가하는 것에 페널티를 부과한 결정계수
적절하지 않은 변수들을 추가할수록 수정된 결정계수의 값은 감소
수정된 결정계수는 결정계수보다 항상 작음
수정된 결정계수와 마찬가지로 적절하지 않은 독립변수 추가에 대한 페널티를 부과한 통계량
Mallow’s Cp가 작을수록 실젯값을 잘 설명
두 관찰자가 측정한 범주 값에 대한 일치도를 측정하는 방법
0~1 사이의 값을 가지며 1에 가까울수록 모델의 예측값과 실젯값이 정확히 일치하며,
0에 가까울수록 모델의 예측값과 실젯값이 불일치
정확도 외에 카파 통계량을 통해 모형의 평가 결과가 우연히 나온 결과가 아니라는 것을 설명
K = Pr(a) - Pr(e) / 1 - Pr(e)
K : 카파 상관계수
Pr(a) : 예측이 일치할 확률
Pr(e) : 예측이 우연히 일치할 확률
적합도 검정은 표본 집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법
적합도 검정 ; 가정된 확률 검정
R 언어에서 chisq.test() 함수를 이용하여 나온 결과의 p-값이 0.05보다 클 경우 관측된 데이터가 가정된 확률을 따른다고 할 수 있다.
적합도 검정 ; 정규성 검정
정규성 가정을 만족하지 못하면 모형의 타당성이 떨어지고 신뢰성이 낮다.
정규성 검정 : 샤피로-윌크 검정, 콜모고로프-스미르노프 검정
시각화 검정 : 히스토그램, Q-Q Plot (Quantile-Quantile Plot)
샤피로 윌크 검정은 데이터가 정규분포를 따르는지 확인하기 위한 검정 방법
R에서 sharpiro.test() 함수를 이용해서 검정, 귀무가설은 ‘표본은 정규분포를 따른다.’
sharpiro.test() 함수의 인수에는 1개의 수치형 벡터만 사용 가능
데이터의 수는 3개부터 5000개 이하만 사용 가능
일반적으로 표본의 수가 많을 경우 (2000개 이상) : K-S검정,
데이터가 적을 경우 : 샤피로-윌크 검정사용 (절대적인 수치는 아님)
K-S 검정은 데이터가 어떤 특정 분포를 따르는가 비교하는 검정이다.
비교 기준이 되는 데이터를 정규분포를 가진 데이터로 두어서 정규성 검정을 실시할 수 있다.
R에서 ks.test() 함수를 이용 (인자는 x, y, alternative 등)
그래프를 이용하여 시각적으로 정규성 가정을 검정
대각선 참조선을 따라 분포하면 정규성 가정을 만족
한 쪽으로 치우치면 정규성 가정에 위배되었을 가능성 ↑
치우침의 판단 기준이 모호함 → 결과 해석이 주관적 → Q-Qplot은 보조용으로 사용하는 것이 좋다.
다변량 변수를 갖는 데이터에서 가능한 모든 변수 쌍에 대한 산점도를 행렬 형태로 표현한 그래프
산점도에서 데이터 값을 나타내는 점 또는 마크에 여러가지 의미를 부여하여 확장된 차트
하나의 자산을 획득하려 할 때, 주어진 기간동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용
자본 투자에 따른 순 효과의 비율을 의미 (== 투자 타당성)
계산식 : (누적 순 효과/ 총 비용) * 100(%)
특정 시점의 투자 금액과 매출금액의 차이를 이자율을 고려하여 계산한 값
예상 투자 비용의 할인 가치를 예상 수익의 할인가치에서 공제했을 때,
나온 값을 합한 금액 (== 미래시점의 순이익 규모)
순현재가치를 0으로 만드는 할인율 (== 연단위 기대수익 규모)
누계 투자금액과 매출금액의 합이 같아지는 기간
프로젝트 시작 시점부터 누적현금 흐름이 흑자로 돌아서는 시점까지의 기간
(== 흑자 전환시점)
효과 검증
성능 검증
중복 검증
최적화 검증
모집단으로부터 조사의 대상이 되는 표본을 무작위로 추출하는 기법
데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분집합으로 나누고,
그 중 1개를 평가 데이터로, 나머지 K-1개를 훈련 데이터로 선정하여 분석 모형을 평가하는 기법
전체 데이터에서 1개 샘플 만을 Test에 사용하고 나머지 N-1개는 학습에 사용하고,
이 과정을 N번 반복하는 기법
LOOCV에서 1개의 샘플이 아닌 P개의 샘플을 테스트에 사용하는 교차 검증 기법
즉 n! / (n - p)! p! 만큼 교차 검증이 반복되므로 계산 시간에 대한 부담이 매우 크다.
코딩 없이 스프레드 시트, 데이터 베이스형태를 쉽게 가시화하는 시각화 도구
차트 블록은 웹 기반 차트 구현 (트위터, 페이스북 등 공유 가능)한다.