(사전학습자료 2) 인과추론의 목적

2innnnn0·2022년 2월 14일
0

https://youtu.be/yoXEMx2P8UY

인과추론을 위한 첫번째 단계

  • 분석 대상 구체화 하기("한번에 하나씩")
    • 구체적으로 무엇을 분석할 것인가
  • 분석 대상 간의 관계 명확히 하기
    • 선행변수(X)는 무엇이며, 후행 변수(Y)는 무엇인가?
    • X : 원인 혹은 재료
    • Y : 결과
    • 선행변수와 후행변수를 잘 구별하는게 중요함.

사회과학 인과추론의 목적

  • Varian(2016)이 제시한 대표적 인과추론 문제. 아래 문제들이 왜 인과추론으로 봐야할까. 예측모델이 아닌 인과추론을 써야할까. (그러나 예측모델과 인과추론에 쓰여지는 데이터가 다른 것은 아니다. 각각 구하는 목적이 다르기 때문에 방법론도 다르게 써야함.)
    • 비료 사용(X)과 농산물 생산량(Y)의 관계 → ML모델링으로 구할 수 있음.
    • 교육과 임금 수준의 관계
    • 보건의료 시스템과 임금 수준의 관계.
  • 단순히 관계(예측모델)에 대한 것이 아닌, 아래 현상에 대한 본질적인 질문을 하고 싶은 것(인과관계)
    • 비료 사용을 느리면, 농산물 생산량은 어떻게 될까
    • 교육 비용을 낮추면, 노동자들의 임금은 어떻게 변할까
    • 보건의료 시스템에 대한 접근성을 높이면, 노동자들의 임금은 어떻게 변할까
  • → 예측모델은 인과를 설명하기 어려움. 답은 알려주더라도 “왜”에 대해서는 인과추론으로 알아야함.
  • 사회과학에서의 인과추론의 본질은 선행변수에 대한 개입intervention과 조정adjustment.
    • 우리는 연구 대상에 행해질 수 있는 행동을 특정할 수 없는 처치에 대해서 인과적 효과를 추정할 수 없다. (by. 인과추론 연구방법론인 잠재적 결과 분석틀의 창시자 루빈 교수)
    • e.g. 성별에 따른 취업률의 변화
      • 성별 → 취업률
      • — 실제는 아래일 수 있음 —
      • 이력서에 포함된 사진 → 취업률
        • 인과추론결과) 그래서 이력서에 사진을 포함하지 못하게 조정할 수 있음.
        • 그 외에, 에어비엔비에서도 호스트에게 백인과 흑인 인종이 다른 게스트들의 수락수를 확인해보았을때 흑인의 수락율이 떨어진 사례가 있었음.
      • 성별에 따른 차이를 고착화하는 제도 → 취업률

인과추론을 위한 두번째 단계

  • 분석 목적 명확히 하기
    • 선행변수(X)에 대한 개입과 조정 → 인과추론 방법론
    • 후행변수(Y)에 대한 정밀한 예측 → 예측 방법론

  • 코로나 백신 사례

    • 백신을 맞고 실제로 병이 걸리지 않게 하기 위해서 인과추론이 반드시 필요함.
    • 코로나에 취약한 사람들을 먼저 맞추는 것
    • 전자는 인과추론 방법론
      • 후자는 예측 방법론
    • 인과추론과 예측방법로은 서로 상호보안적인 것임.
      • 흡연이 폐암방별률을 높인다는 인과관계는 알려져있지만, 얼마나 더 많이 높이는 지를 구하려면 예측방법론을 적용.
  • SNS마케팅 예시.

    • X: 인플루언서(동료효과) → Y:주변인의 구매여부
    • 인플루언서의 조정과 개입(광고 의뢰)이 필요하여 바이럴 마케팅을 하고 싶다면.
      • 인과추론 방법론을 적용
    • (뷰티)인플루언서를 구독하는 사람은 상대적으로 (뷰티) 제품을 살 가능성이 높다는 것을 합리적으로 유추할 수 있음. 그래서 (뷰티) 제품을 구매할 확률이 높은 이용자를 찾아 타겟 마켓팅을 하고시다면
      • 예측방법론
      • 머신러닝(딥러닝)
      • 추천시스템
  • 인과추론에서 매커니즘 규명이 중요한 이유

    • 괴혈병의 원인을 알고 싶음.
      • 과일이 괴혈병을 치료하는 것은 알아냄. 그러나 치료제로서 도입까지는 50년이나 걸림. 그 이유는 정확한 이유를 알지는 못했기 때문.
      • 실제는 비타민C 부족이 원인.

  • "데이터 스스로 진실을 드러나게 해야한다"
    • 예측이 아닌 인과추론이 목적이라면 위험한 답변임.
    • 현실적으로 데이터 자체만으로 인과를 뽑아내기 어렵기 때문. 이번 과정에서는 인과추론을 중점으로 하기 때문에 데이터를 심도있게 파보는 과정을 배움.
profile
성장하고 싶은 데이터분석가.

0개의 댓글