[개념정리] 상관관계 vs 인과관계

서쿠·2024년 7월 6일
1
post-thumbnail

안녕하세요! 💡 저는 요즘 인과관계 분석, 인과성 분석에 대해 공부하고 있습니다. 🙌 본격적으로 공부를 시작하기에 앞서 가장 기본이 되는 상관관계와 인과관계에 대해 다시 한번 정리하고 넘어가려고 합니다. ㅎㅎ

이 두 개념은 비슷해 보이지만 매우 다른 의미를 가지고 있으며, 데이터 해석에 있어 중요한 역할을 합니다.

그전에! 답변 궁금하시죠?

🤣 Q. 신기하게도 시험기간에 공부를 접으면, 묘하게 자신감이 솟구친다. 이는 상관관계인가? 인과관계인가?
💯 A. 시험기간에 공부를 접는 행동과 자신감이 솟구치는 현상 사이에는 분명 연관성이 있어 보입니다. 이 두 변수가 함께 발생한다는 점에서 상관관계가 존재한다고 볼 수 있습니다.
- 공부를 접음으로써 스트레스가 줄어들어 일시적으로 자신감이 상승할 수 있습니다.
- 자신감이 높아져서 공부를 덜 해도 된다고 판단하는 것일 수 있습니다.
- 제3의 요인(예: 개인의 성격, 과거 경험)이 두 현상에 영향을 미칠 수 있습니다

1. 상관관계: 변수 간의 연관성

상관관계(Correlation)는 두 변수 사이의 관계를 나타내는 통계적 측정입니다. 한 변수가 변할 때 다른 변수도 함께 변하는 경향이 있다면, 이 두 변수 사이에는 상관관계가 있다고 말합니다.

상관관계의 유형

상관관계의 유형은 크게 아래와 같이 3가지 유형으로 정의할 수 있습니다:

  1. 양의 상관관계 (Positive Correlation):

    • 한 변수가 증가하면 다른 변수도 증가합니다.
    • 예: 웹사이트의 방문자 수와 판매량
  2. 음의 상관관계 (Negative Correlation):

    • 한 변수가 증가하면 다른 변수는 감소합니다.
    • 예: 서버 응답 시간과 사용자 만족도
  3. 무관계(상관) (No Correlation):

    • 두 변수 사이에 특별한 관계가 없습니다.
    • 예: 서버의 CPU 모델명과 데이터베이스 쿼리 속도

추가 상관관계 예시

  1. 운동 시간과 체중:

    • 운동 시간이 증가할수록 체중이 감소하는 경향이 있습니다. (음의 상관관계)
  2. 학습 시간과 시험 점수:

    • 공부 시간이 증가할수록 시험 점수가 향상되는 경향이 있습니다. (양의 상관관계)
  3. 수면 시간과 업무 생산성:

    • 적절한 수면 시간이 확보될수록 업무 생산성이 증가하는 경향이 있습니다. (양의 상관관계)

2. 인과관계: 원인과 결과의 직접적 연결

인과관계(Causation)는 한 사건이나 변수가 다른 사건이나 변수의 직접적인 원인이 되는 관계를 말합니다. A가 B의 원인이 되어 B를 변화시키는 관계입니다.

인과관계의 특징

  1. 원인과 결과: 명확한 원인과 결과 관계가 존재해야 합니다.
  2. 시간적 선후관계: 원인은 항상 결과보다 먼저 발생해야 합니다.
  3. 일관성: 동일한 조건에서는 항상 같은 결과가 나타나야 합니다.

추가 인과관계 예시

  1. 물 섭취와 갈증 해소:

    • 물을 마시면 직접적으로 갈증이 해소됩니다.
  2. 햇빛 노출과 비타민 D 생성:

    • 적절한 햇빛 노출은 체내 비타민 D 생성을 직접적으로 촉진합니다.
  3. 독감 예방 접종과 독감 감염 위험 감소:

    • 독감 예방 접종을 받으면 독감 감염 위험이 직접적으로 감소합니다.

3. 상관관계와 인과관계의 주요 차이점

상관관계와 인과관계는 아래 테이블로 구분하실 수 있습니다:

특성상관관계인과관계
방향성양방향 가능단방향
원인-결과불명확명확
제3 요인의 영향가능배제됨
예측력제한적강력

4. 상관관계와 인과관계의 혼동: 주의해야 할 오류

상관관계를 인과관계로 오해하는 것은 데이터 분석에서 흔히 발생하는 오류입니다.
다음은 흔히 범할 수 있는 오류의 예시입니다:

4.1 인과관계의 방향 오해

사례: "서버 모니터링 알림 횟수가 증가할수록 시스템 장애가 많이 발생한다."

  • 오류: 모니터링 알림이 장애를 일으킨다고 생각하는 것.

  • 설명: 실제로는 시스템에 문제가 있을 때 모니터링 알림이 증가하는 것입니다. 인과관계의 방향이 반대입니다.

4.2 숨겨진 제3의 요인

사례: "클라우드 서비스 사용량이 증가할수록 기업의 매출이 증가한다."

  • 오류: 클라우드 서비스 사용이 직접적으로 매출 증가를 일으킨다고 생각하는 것.

  • 설명: 기업의 전반적인 성장이 클라우드 서비스 사용량 증가와 매출 증가 모두에 영향을 줄 수 있습니다. 이 경우, 기업의 성장이라는 제3의 요인이 두 변수에 영향을 미치고 있습니다.

4.3 우연의 일치

사례: "특정 프로그래밍 언어의 업데이트 릴리스와 서버 다운타임 사이에 상관관계가 있다."

  • 오류: 프로그래밍 언어 업데이트가 서버 다운타임의 원인이라고 생각하는 것.

  • 설명: 두 사건은 단순히 우연히 동시에 발생했을 가능성이 높습니다. 직접적인 인과관계를 가정하기 전에 더 자세한 조사가 필요합니다.

5. 상관관계와 인과관계 구분법

  1. 실험적 접근: 통제된 환경에서 A/B 테스트를 실시합니다.
  2. 시간적 분석: 사건의 발생 순서를 철저히 조사합니다.
  3. 제3 변수 통제: 숨겨진 변수의 영향을 확인하고 통제합니다.
  4. 논리적 분석: 관계의 논리적 타당성을 비판적으로 검토합니다.
  5. 전문가 검토: 해당 분야 전문가의 의견을 구합니다.

6. 맺음말

상관관계와 인과관계를 정확히 구별하는 것은 데이터 분석의 핵심입니다. 단순히 두 변수 간의 관계가 있다고 해서 바로 인과관계를 가정해서는 안 됩니다. 항상 비판적 사고를 유지하고, 다양한 각도에서 데이터를 분석하는 것이 중요합니다.

이러한 개념을 잘 이해하고 적용한다면, 더욱 정확하고 신뢰할 수 있는 데이터 분석 결과를 얻을 수 있을 것입니다. 데이터 과학자로서 우리의 역할은 단순한 상관관계를 넘어, 진정한 인과관계를 밝혀내는 것입니다.

저도 개념적으로는 잘 이해하고 여러분들께 소개드리고 있지만, 실제로 분석을 하면서 상관관계 분석을 넘어서서 인과관계 단계까지 도출해낸 사례들이 많지 않은 것 같습니다 🤣

선배님 후배님들의 좋은 사례들이 있다면 댓글로 의견 남겨주세요 ㅎㅎ

profile
Always be passionate ✨

0개의 댓글