[Review] The MIDAS Touch: Mixed Data Sampling Regression Models

redgreen·2022년 9월 19일
0

GDP

목록 보기
1/2

01 Introduction

  • MIDAS
    - variable of interestthe lower frequency variable 이지만 relevant informationthe high frequency data인 경우에 활용. ex) stock market volatility
    - GDP같은 yearly data에 대해 monthly data를 yearly or quarterly data로 aggregating하는 대신 MIDAS regression을 통해 모델링할 수 있다.
    - different sampling frequencies이므로 autogressive model 이 아니다.
    - 대신, MIDAS는 distributed lag model과 변수를 공유하고 참신한 변수들을 갖는다.
    - YtY_t and Xt(m)X_t^{(m)}을 이용 --> efficiency
    - equation
    : simple linear MIDAS regression: Yt=β0+B(L1/m)Xt(m)+ϵt(m)Y_t = \beta_0 + B(L^{1/m})X_t^{(m)}+\epsilon_t^{(m)}
    : B(L1/m)=j=0jmaxB(j)Lj/mB(L^{1/m}) = \sum^{j^{max}}_{j=0}B(j)L^{j/m} --> jmaxj^{max} 길이의 다항식
    : Lj/mXt(m)=Xtj/m(m)L^{j/m}X_t^{(m)} = X^{(m)}_{t-j/m}: Lj/m(=j/m)L^{j/m}(= j/m)만큼 시차가 있는 XX
    : yearly 변수 YtY_tquarterly 변수 Xt(m)X_t^{(m)}jmaxj^{max}만큼의 시차까지 표현한 식

  • The High frequency vairable
    :

  • The low frequency variable
    : past market information(the tick-by-tick level)
    : variable of interest

  • stylized distributed lag model
    - equation
    :Yt=β0+B(L)Xt+ϵtY_t = \beta_0 + B(L)X_t + \epsilon_t
    :B(L):lag  polinomial  operatorB(L): lag\; polinomial\; operator
    :X(m)X^{(m)}: sampled mm times faster, m:lagm:lag
    :Yt(m)Y_t^{(m)} and Xt(m)X_t^{(m)}을 이용

  • distributed lag models and MIDAS regression 비교
    - feasible GLS(computed using lagged dependent variable)


    -특정 상황하에서 Xt(m)X_t^{(m)}을 통해 YtY_t를 예측할 때 발생하는 aggregation bias는 사라진다는 결과를 제시

  • MIDAS regression의 관심사
    : 독립변수frequently sampled되었을 때, 발생하는 discretization biases를 파악
    : distributed lag modelMIDAS 모두 m->0으로 수렴할 때 discretization bias0에 수렴

02 Why MIDAS Regressions?

  • MIDAStightly parameterized, reduced form regression 임
  • simple linear MIDAS regression: Yt=β0+β1B(L1/m)Xt1(m)+ϵt(m)Y_t = \beta_0 + \beta_1B(L^{1/m})X_{t-1}^{(m)}+\epsilon_t^{(m)}
    • B(L1/m)=j=0jmaxB(j)Lj/mB(L^{1/m}) = \sum^{j^{max}}_{j=0}B(j)L^{j/m} --> jmaxj^{max} 길이의 다항식
    • Lj/mxt=xtj/mL^{j/m}x_t=x_{t-j/m}
    • Lj/mL^{j/m} : j/mj/m만큼의 laglag를 가진 xtx_t를 만드는 연산자

  • MIDAS는 많은 lag을 활용해서 많은 파라미터를 요구함
  • 파라미터를 줄이기 위해 여러 방법을 사용



03 MIDAS and Distributed Lag models: A Comparison

3.1 Aggregation Bias and Aliasing Revisited

  • 다른 sampling frequency를 가진 데이터를 사용할 때, 불가피하게 temporal aggregation이 발생한다.
  • aggregation issue에 대해 해당 논문에서는 다음 두가지를 가정했다.
    1) underlying stochastic processcontinuous time에 따라 변한다
    2) 데이터는 discrete points in times에서 수집된다
    --> observed datasampling interval독립이다?

  • Yt(m)Y_t^{(m)}: 동일한 1/m1/m 간격으로 discrete time에서 샘플링된 값
  • y(t)y(t): continuous time preocesses

  • discrete time distributed lag model
    : Yt/m(m)=1ms=B(m)(sm)X(ts)/m(m)+Ut/m(m)Y_{t/m}^{(m)} = {1\over{m}}\sum_{s=-\infin}^{\infin}B^{(m)}({{s}\over{m}})X^{(m)}_{(t-s)/m} + U^{(m)}_{t/m}
  • MIDAS regression
    : Yt=1ms=Bˉ(m)(sm)X(ts)/m(m)+UtY_{t} = {1\over{m}}\sum_{s=-\infin}^{\infin}\bar{B}^{(m)}({{s}\over{m}})X^{(m)}_{(t-s)/m} + U_{t}
  • distributed lag modelYYXX 모두 동일한 frequency를 갖고, MIDASXXhigh frequency를 갖는다
  • B(m)B^{(m)}Bˉ(m)\bar{B}^{(m)}의 비교가 논문의 관심사 --> OLS 추정치를 사용

  • multiple regressor의 경우 sampling frequencies가 다를 때, temporal aggregation시에 cross-regressor contamination(?)이 발생할 수 있다.(Geweke, 1975)
    --> 논문에서 single regressor에 집중함

B(m)B^{(m)} in a distributed lag model

  • minimize해야하는 식 of B(m)B^{(m)}
    --> πmπmB~(m)(w)b~(w)2Fm[Sx](w)\int_{-{\pi}m}^{{\pi}m}| \tilde{B}^{(m)}(w) - \tilde{b}(w)|^2F_m[S_x](w)
    : Fm[Sx]F_m[S_x]의 가중치를 가진 L2-norm으로 볼 수 있음.
    : SxS_x: spectral density of continous sampled process x(t)x(t)
    and spectral density of discretely sampled process x(ts)/mx_{(t-s)/m}
    : Sx(m)Fm[Sx]S_x^{(m)}\equiv F_m[S_x]
    : B~(m)\tilde{B}^{(m)}
    - continuous sampling convolution polynomial
    - Fourier transforms of B(m)B^{(m)}
    : b~\tilde{b}
    - discrete sampling
    - Fourier transforms of bb
    --> continous sampling poylnomialdiscrete sampling 오차를 최소화 시키기 때문에 discretization bias를 감소시키는 효과가 있음

  • OLS estimator
    : B~(m)=Fm[Sxb~]/Fm[Sx]=Fm[Syx]/Fm[Sx]\tilde{B}^{(m)} = F_m[S_x\tilde{b}]/F_m[S_x] = F_m[S_{yx}]/F_m[S_x]
    : SyxS_{yx}: cross-spectrum of continously sampled y(t)y(t) and x(t)x(t)


  • exogenous variable: model 외부에서 정의되는 변수
  • endogenous variable: model 내부에서 정의되는 변수
    ex) the supply of and demand for money determine the interest rate contingent on the level of the money supply, so the money supply is an exogenous variable and the interest rate is an endogenous variable.
profile
인공지능 꿈나무

0개의 댓글