[인과추론] 이중차분법(DID)에서의 평행 추세 가정 확인

baekdata·2023년 3월 23일
1

배경

인과추론을 공부하고, 이중차분법을 적용하면서 느낀 어려움 중 하나는 실험군과 대조군을 선정하고 DID를 이용하여 그 효과를 추정했을 때, 결과를 얼마나 신뢰할 수 있느냐의 문제였습니다.

결과를 스스로도 신뢰하기 어렵다라고 느낀 지점은, 내가 선택한 실험군과 대조군의 특정 시점 이후의 결과값의 차이가 정말 그 처리(Treatment)에 의한 것일까?라는 의문 때문이었습니다. 실험군과 대조군을 선정해서, 그 차이를 보기는 했으나 이 두 집단이 정말 선택 편향 (Selection Bias) 없이, 잘 선택 되었을까를 어떻게 확인할 수 있을지에 대한 고민이 있었습니다.

이중차분에서는 실험군과 대조군이 잘 선정 되었고, 그 효과를 신뢰할 수 있기 위한 가정으로 평행 추세 가정이라는 개념을 사용하고 있습니다. 간단히 설명하면, 실험군과 대조군의 차이가 처리 이전에도 동일한 흐름을 보이고 있었다면, 처리가 없을 때에는 그 흐름이 계속 동일하게 유지된다라는 가정입니다.

이 가정이 성립해야만, 동일하게 유지된다는 흐름을 변화하게끔 만든 요인이 처리만에 의한 효과라고 주장할 수 있게 되기 때문입니다. 즉, 동일하게 유지되던 흐름을 바꾸게 만든 것이 바로 처리에 의한 효과라고 보는 관점입니다.

이중차분을 실무에서 더 잘 적용하고 해석하기 위해, 이중차분법의 중요한 가정인 평행 추세 가정 (parallel trend assumption)에 대해 정리하고 작성해봤습니다.

평행 추세 가정?

이중차분법으로 도출한 차분값이 정책으로 인한 효과만을 반영한다고 주장하기 위해서는 한 가지 가정이 필요합니다. 평행 추세 가정입니다.

평행 추세 가정이란 "정책이 시행되지 않았다면, 실험군과 대조군의 결과 변수의 값이 정책 시행 전/후로 비슷한 추세를 보였을 것이다"를 의미합니다.

아래 그림을 보면, 정책 시행이 되지 않았을 때 처리 집단의 실제 결과 변수 값은 ⓧ였을 것을 의미합니다. 왜 이런 가정이 만족해야 할까요?

이중차분법 설계상 시간에 의해 변하지 않는 요인은 제거가 됩니다. 반면, 시간에 의해 변하는 요인은 제거가 되지 않습니다. 그러나, 시간에 의해 변하는 요인이 처리 수혜 집단과 처리 비수혜 집단간 비슷하다고 하면 시간에 의한 요인도 제거거된다고 합니다. 이런 이유로, 시간에 의해 변하는 요인이 실험군 집단 간 비슷하다고 하면 이중차분법으로 정책만의 인과 효과를 식별할 수 있게됩니다.

평행 추세 가정을 만족하는지 확인 하는 방법?

평행 추세 가정을 만족하는지 직접적으로 검정하는 방법은 없습니다. 왜냐면, 정책은 이미 실제로 수행되었기 때문에 처리 집단이 정책에 영향을 받지 않은 결과 값은 존재하지 않습니다. 즉, 정책이 수행되지 않았다는 상황인 반사실은 관측이 불가하므로 직접 검정은 불가합니다.

그럼 어떻게 평행 추세 가정을 만족하는지 확인 할 수 있을까요? 바로, 정책 수행 이전 특정 시점동안 두 집단의 결과 변수 값이 꾸준히 평행 추세를 보였는지 확인하는 것으로 간접적 검정이 가능합니다.

아래 <그림7>에서, 정책이 시행되기 이전 4개 기간 동안 두 집단의 결과 변수는 꾸준히 평행하여 움직이는 모습을 보실 수 있습니다. 즉, 정책이 없기까지는 두 집단 간 차이는 존재하나 그 차이의 갭이 동일하게 움직이고 있었습니다. 그러므로, 정책이 시행되지 않았을 때에도 이런 비슷한 추세를 보였을 것이라는 추정을 간접적으로 할 수 있게 됩니다.

<그림8>의 사례를 보면, 정책 시행 이전기간 처리 집단과 통제 집단간 평행 추세를 만족하지 않고 있습니다. 따라서, t1 시점에서 나타난 차이는 처리 효과라기 보다는 추세 변동이 반영되어 나타난 이탈일 가능성이 큽니다. 즉, 해당 차이는 정책에 의한 효과로 추정하기는 다소 어렵습니다.

이렇듯, 평행 추세 가정을 만족하는지 간접적으로 알기 위해서는, 두 집단의 정책 도입 이전에 대한 데이터가 있어야하며, 일반적으로는 4개 시점 정도의 자료를 통해 확인합니다.

평행 추세 가정의 통계 검정 방법

다음으로, 평행 추세 가정이 만족하는지 통계적으로 검정하는 방법입니다. 평행 추세 가정을 만족하는지는 아래와 같은 회귀식을 세우고, 회귀분석을 통해 간접적으로 통계 검정 할 수 있습니다.

회귀식의 의미

  • P = 1 (정책 시행 후), P = 0 (정책 시행 전) / D = 1 (정책 수혜 집단), D = 0 (정책 비수행 집단) / Z = 연도별 더미를 의미합니다.
  • 위 식에서, B3 ~ B6에 대한 통계적 검정을 통해, 평행 추세 가정이 만족하는지 여부를 판단할 수 있습니다.
  • B3은 연도 T-3 시점에 처리집단과 통제집단 간에 관측된 결과 변수 값의 차이가 연도 T-4 시점에서의 차이에 비해 얼마나 차이가 나는지를 나타냅니다. 예를 들어, T-4 시점에서의 결과 변수 값의 차이가 20%이고, B3가 0.3%p로 추정되었다면, T-3 시점의 결과 변수 차이 값은 20.3%p의 차이가 난다는 것을 의미합니다. → 즉, 두 집단의 결과 변수 값이 비슷한 추세를 보인다는 의미를 가집니다.
  • 즉, B3 ~ B6의 추정값이 0에 근접하게 추정되고, 추정값이 통계적으로 유의미하지 않게 나야 평행 추세 가정이 만족했을 것이라는 주장에 신뢰성이 확보 됨을 의미합니다.

<그림9>를 보면, 정책 시행 전에는 두 집단의 결과 변수 값의 차이 base 연도와 비슷하고, 대부분의 계수 추정값이 0에 근접해 있습니다. 또한, 95% 신뢰 구간 선이 0을 포함하고 있으므로 유의 수준 5% 하에서, 귀무가설 (Bt = 0, 차이가 없음)을 기각할 수 없음을 의미. 즉, 정책 시행 이전 기간 동안 처리집단과 통제집단의 결과 변수 값의 추세가 비슷했음을 의미합니다.

적절한 통제집단 (대조군)을 선정하는 방법

평행 추세 가정이 만족 되어야, 이중차분으로 인한 결과로 해석할 수 있기 때문에 평행 추세 가정을 잘 만족하는 집단을 찾는 것이 중요합니다. 그러나, 이것은 정답이 딱 정해져 있는 영역은 아닙니다.

다만, 실험군과 대조군을 매우 유사한 집단을 선정한다면 평행 추세 가정을 만족할 가능성이 높습니다. 이를 위해서는, 정책 수행 여부와 관련하여, 선택 편향이 없는 상황이어야 좋습니다. 정책 수행 여부를 참가하는 사람이 선택할 수 있다면 두 집단은 관측 불가능한 특성 측면에서 서로 매우 다를 소지가 있기 때문입니다. 즉, 외부 요인에 의해 올바른 해석을 하지 못하게 될 수 있는 여지를 줄일 수 있습니다.

참고 문헌

  • 행정학・정책학 연구에서의 이중차분 추정기법의 활용과 쟁점 <손호성, 이재훈>
profile
글쓰는 데이터 분석가

0개의 댓글