[ADsP 합격 노트] 3-4. 시계열 분석, 주성분 분석

wandajeong·2022년 12월 13일
0

ADsP

목록 보기
9/11

시계열 분석

  • 정상성

    • 모든 시점에 대해 일정한 평균
      • 평균이 일정하지 않은 시계열은 차분(difference)을 통해 정상화
    • 분산이 시점에 의존하지 않고 일정
      • 분산이 일정하지 않은 경우 변환(transformation)을 통해 정상화
    • 공분산도 단지 시차에만 의존, 실제 특정 시점 t, s에는 의존하지 않음
    • 정상 시계열이 아닌 경우, 특정 기간의 시계열 자료로부터 얻은 정보를 다른 시기로 일반화 할 수 없다.
  • 시계열 자료 분석 방법

    • 일변량 시계열 분석 : Box-Jenkins(ARMA), 지수 평활법, 시계열 분해법
      • 하나의 변수에 관심
    • 다중 시계열 분석 : 계량 경제, 전이함수, 개입분석, 상태공간, 다변량 ARIMA
      • 여러개의 시간에 따른 변수 활용
  • 이동평균법 : 불규칙변동이 심한 경우 긴 기간의 평균을 사용

  • 지수평활법

    • 단기간에 발생하는 불규칙변동을 평활하는 방법
    • 중기 예측 이상에서 주로 사용
  • 시계열 모형

    1. 자기회귀 모형(AR, autoregressive)
      백색잡음의 현재값과 자기 자신의 과거값을 선형가중합
      • p 시점 전의 자료가 현재 자료에 영향을 주는 모형
      • 자기상관함수(ACF)는 빠르게 감소, 부분자기함수(PACF)는 어느 시점에서 절단점 가짐
        (ACF가 빠르게 감소하고, PACF가 3시점에서 절단점을 갖는다면, 2시점 전의 자료까지가 현재에 영향을 미치는 AR(2) 모형임)
        ※자기상관계수: k기간 떨어진 값들 log(k)의 상관 계수
    2. 이동평균 모형(MA, moving average)
      • AR모형과 반대로 ACF에서 절단점을 갖고, PACF가 빠르게 감소
    3. 자기회귀누적이동평균 모형(ARIMA)
      • 비정상시계열 모형
      • ARIMA모형을 차분이나 변환을 통해 AR모형이나 MA모형, 이 둘을 합친 ARMA모형으로 정상화 할 수 있음
      • d번 차분한 ARMA(p,d) 모형 = ARIMA(p, d, q) 모형
        • d=0이면, ARMA(p,d) 모형, 정상성 만족
        • p=0이면, IMA(d,q) = d번 차분한 MA(q) 모형
        • q=0이면, ARI(p,d) = d번 차분한 AR(p) 모형
      • ARIMA(1,1,2) = 1차분 후, AR(1), MA(2), ARMA(1,2) 선택 활용 → 이런 경우 가장 간단한 모형을 선택하거나 AIC를 적용하여 점수가 가장 낮은 모형을 선정
  • 분해 시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법(회귀 분석) Zt=f(Tt,St,Ct,It)Z_t = f(T_t, S_t, C_t, I_t)
    • 경향(추세) 요인(TtT_t) : 자료가 오르거나 내리는 추세
    • 계절 요인(StS_t) : 고정된 주기에 따라(짧은 기간 동안의 주기적인 패턴)
    • 순환 요인(CtC_t) : 경제적이나 자연적인 이유 없이 알려지지 않은 주기를 가지고 변화하는 자료
    • 불규칙 요인(ItI_t) : 위의 세 가지 요인으로 설명할 수 없는 오차에 해당하는 요인(천재지변)
      ※잡음: 무작위적 변동. 원인 모름
  • 시계열 데이터 분석 절차
    1. 시간 그래프 그리기
    2. 추세와 계절성 제거하기
    3. 잔차를 예측하기
    4. 잔차에 대한 모델 적합하기
    5. 예측된 잔차에 추세와 계절성을 더하여 미래를 예측하기

다차원척도법

2차원 공간상에 점으로 표현, 개체들 사이의 집단화를 시각적으로 표현

  • 객체간 근접성을 시각화하는 통계기법
  • 유클리드 거리행렬 활용
  • STRESS나 S-STRESS를 부적합도 기준으로 사용
  • 종류
    • 계량적 MDS : 데이터가 구간척도나 비율척도인 경우
    • 비계량적 MDS : 데이터가 순서척도인 경우

교차분석

  • 두 문항 모두 범주형 변수일 때 사용되는 분석으로 두 변수간의 관련성을 보기 위함
  • 교차표를 작성하여 교차빈도를 집계할 뿐 아니라 두 변수들 간의 독립성 검정을 할 수 있다
  • 기대빈도가 5미만인 셀의 비율이 20%를 넘으면 카이제곱푼포에 근사하지 않으며, 이런 경우 표본의 크기를 늘리거나 변수의 수준을 합쳐 셀의 수를 줄이는 방법 등을 사용함

주성분 분석

  • 여러 변수들의 변량을 ‘주성분’이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
  • 주성분 분석으로 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산속도를 개선할 수 있다
  • 요인 분석(Factor Analysis) : 등간척도로 측정한 두개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법
  • 주성분 분석 vs 요인분석
    요인분석주성분 분석
    생성된 변수 수지정 없음대게 4개 이상은 넘지 않음
    생성 변수 이름분석자가 명명제1주성분, 제2주성분
    생성된 변수들 간의 관계대등한 관계제1주성분 > 제2주성분
    분석 방법의 의미목표변수를 고려하지 않고 묶음목표 변수 고려
  • 주성분의 선택법
    • 주성분분석 결과에서 누적기여율(cummulative proportion)이 85% 이상이면 주성분의 수로 결정
    • scree plot을 활용하여 고유값이 수평을 유지하기 전 단계로 주성분의 수를 선택
    • 평균 고유값(average eigenvalue) 방법: 고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정
profile
ML/DL swimmer

0개의 댓글