시계열 분석
분해 시계열
: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법(회귀 분석) Zt=f(Tt,St,Ct,It)
- 경향(추세) 요인(Tt) : 자료가 오르거나 내리는 추세
- 계절 요인(St) : 고정된 주기에 따라(짧은 기간 동안의 주기적인 패턴)
- 순환 요인(Ct) : 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
- 불규칙 요인(It) : 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인(천재지변)
※잡음: 무작위적 변동. 원인 모름
- 시계열 데이터 분석 절차
- 시간 그래프 그리기
- 추세와 계절성 제거하기
- 잔차를 예측하기
- 잔차에 대한 모델 적합하기
- 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기
다차원척도법
2차원 공간상에 점으로 표현, 개체들 사이의 집단화를 시각적으로 표현
- 객체간 근접성을 시각화하는 통계기법
- 유클리드 거리행렬 활용
- STRESS나 S-STRESS를 부적합도 기준으로 사용
- 종류
- 계량적 MDS : 데이터가 구간척도나 비율척도인 경우
- 비계량적 MDS : 데이터가 순서척도인 경우
교차분석
- 두 문항 모두 범주형 변수일 때 사용되는 분석으로 두 변수간의 관련성을 보기 위함
- 교차표를 작성하여 교차빈도를 집계할 뿐 아니라 두 변수들 간의 독립성 검정을 할 수 있다
- 기대빈도가 5미만인 셀의 비율이 20%를 넘으면 카이제곱푼포에 근사하지 않으며, 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 등을 사용함
주성분 분석
- 여러 변수들의 변량을 ‘주성분’이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
- 주성분 분석으로 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다
- 요인 분석(Factor Analysis) : 등간척도로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
- 주성분 분석 vs 요인분석
| 요인분석 | 주성분 분석 |
---|
생성된 변수 수 | 지정 없음 | 대게 4개 이상은 넘지 않음 |
생성 변수 이름 | 분석자가 명명 | 제1주성분, 제2주성분 |
생성된 변수들 간의 관계 | 대등한 관계 | 제1주성분 > 제2주성분 |
분석 방법의 의미 | 목표변수를 고려하지 않고 묶음 | 목표 변수 고려 |
- 주성분의 선택법
- 주성분분석 결과에서 누적기여율(cummulative proportion)이 85% 이상이면 주성분의 수로 결정
- scree plot을 활용하여 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택
- 평균 고유값(average eigenvalue) 방법: 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정