[행동 데이터 분석] 인과 행동 프레임 워크, 행동 데이터를 이해하는 방법

장우솔·2023년 11월 9일
0

book

목록 보기
3/5

챕터1 인과-행동 프레임워크

예측분석과 인과적 접근법의 다른점

  • 예측분석이 비즈니스 문제 잘 풀어 왔지만, 인간의 행동을 분석하기 어려울 수 있음. 반면 인과적 접근법은 행동 데이터의 교란현상을 해결할 수 있음.

  • 인과관계 분석도구 : A/B테스트

  • 실험 불가능한 환경에서 사용하는 도구 : 인과관계 다이어그램

  • 보간법 : 예측한 숫자가 다른 관측값 사이에 있는 것 → 안전하고 신뢰할만함
  • 보외법 : 예측한 점이 관측값이 모여있는 영역을 벗어나 있는 것 → 도전적임

    -> 인간의 행동은 차원에 존재하는 데이터가 매우 적은 경향이 있어서 ‘보외법’을 훨씬 많이 사용한다.

인과관계 접근법

  • 인과관계 분석에서는 변수를 정확한 예측을 목표로 설정하기보다는 정확한 관계의 계수를 가질 수 있도록 설계해야한다. → 어떤 변수가 목표변수에 실제로 영향을 주지 않아도 높은 상관관계를 가질 수 있기에

    예시) 기온이 높아질수록 아이스크림 매출이 높아지는 경향이 있지만, 사실 이것은 여름방학 기간에 잘팔리는 것임.

    • 판매시점이 기온과 매출관계를 교란하는 요인 “교란변수”라 하며 회귀모델에 편향을 조성하는 변수를 의미한다. → 교란변수가 있는 환경에서 회귀모델 계수를 인과관계로 해석하면 잘못된 결론을 내림.
      • 기온이 올라가면 아이스 커피와 아이스크림 매출이 모두 오르기에 두 변수 사이에 양의 상관관계가 있다고 보여진다. 사실 커피를 구매하는 행위 자체가 아이스크림의 구매행위에 영향을 주는 것은 아닌데, 그렇다면 도메인 지식이 없다면 잘못된 변수를 추가했다는 것을 알 수 없는걸까?

  • 해명효과 (역설) : 수집 방법에 따라 데이터 자체에 편향이 생겨서 허위 관계가 관찰되는 것

챕터2 행동 데이터를 이해하는 방법

목적에 따라 제어 가능한 프로세스, 규칙, 결정으로 구성되는 비즈니스 행동은 개인 특성을 제외한 나머지 세 요소에 영향을 끼친다.

개인 특성

드물게 혹은 굉장히 점진적으로만 변하는 모든 개인정보→ 개인의 성향을 변하지 않는 특성으로 가정!

인지와 감정

뇌에서 일어나는 모든 일 → 고객 만족도, 고객 경험 포함

데이터 수집 방법 : 수집불가라 진술이나 관찰된 지표에 의존한다. (설문조사나 UX관찰)

  • 행동과학과 UX 차이
    • 행동과학 : 머릿속에 일어나는 많은 일을 인지하지 못한다고 가정함
    • UX : 인간이 왜, 어떻게, 무엇을 원하는지 알고 있다고 가정함
  • 필자는 인지와 감정을 바꾸려고 하는 것이 윤리적으로 옳은가 판단하는 방법으로 ‘NYT’ 테스트 추천함
    • NYT test 내가 한 일이 다음날 아침 <뉴욕 타임스> 1면 기사에 나도 떳떳한지 스스로에게 물어 그 실행 여부를 판단하라는 일종의 윤리 테스트다.

의도

“나는 X를 할거야”처럼 행동에 한발 더 가까운 요소

  • 하고 싶어하지 않아서인지, 의도와 행동 차이가 있어서인지 잘 파악하고 고객의 행동을 유도해야한다.

데이터 수집 방법 : 설문조사나 UX관찰, 의도 모델링(관찰된 행동으로부터 의도를 추측하는 방법)

  • 페이 포인트 : 비즈니스에서 의도를 달성하는 것을 방해하는 장애물

행동

행동을 방해하는 요소를 파악하고 해결하려면 행동의 단계를 세분화해서 정의해야한다.

비즈니스 행동

  • 이메일과 우편 포함 의사소통
  • 웹사이트 문구나 고객센터 상담원 응대 매뉴얼 변경
  • 고객보상이나 채용 기준과 같은 사업 규칙
  • 허위 고객 계정을 판별하거나 직원 승진시키는 것과 같은 임직원 개인의 결정

데이터 수집은 더 수월하지만 분석관점에서 비즈니스 행동이 까다로운 존재이다. 노이즈를 파생하기도 하는데 그 원인은,

  1. 고객 행동을 세분화하는 수준만큼 비즈니스 행동을 상세하게 추적하지 못하는 조직이 많다.
    • ex) 영업시간 단축실험 해서 매출 일시적으로 줄어들었었는데, 실험 진행 모르고 매출 데이터만 보고 분석하기
  2. 비즈니스 행동은 고객 행동과 관련된 변수를 해석하는 데 영향을 줄 수 있다.
    - ex) 이메일 주소 입력하면 자동적으로 광고성 이멜 수신 동의 체크박스 선택되는 페이지 → 고객이 의도한건 아니니까.



데이터를 행동화하고 데이터가 표현해야하는 현실 세계의 요소와 실제로 얼마나 가까운지 확인하는 방법

1. 행동 무결성 사고방식
- 무결성이 입증될 때까지 변수를 의심해야한다.
- 기존의 기업 들어간다면, 처음부터 주어진 자료를 완벽하게 읽으려 하기 보단, 비즈니스 문제의 중요도를 파악하고 중요도가 높은 순서대로 비즈니스 문제를 선택하여 부정확한 변수가 있는지 검토한다.
- 살펴볼 요소 예시
- 관심이 있는 원인과 결과
- 매개변수와 조절변수
- 잠재적 교란변수
- 기타 교란의 여지가 없는 독립변수

2. 행동 변수 세분화
행동에 관한 변수는 행동 변수와 동일하지 않다.

  • 좋은 행동 변수의 특징

    • 관찰 가능성

    • 독립성 : 좋은 집계 변수는 좋은 독립변수에서 얻을 수 있다. 변수가 집계 상태에서만 의미가 있고 개별 수준에서는 의미있는 해석할 수 없으면 좋은 변수가 아니다. 탈퇴율에 대응하는 의미있는 독립 지표는 탈퇴 확률이다.

    • 원자성 : 의도가 같은 서로 다른 행동을 함께 집계하는 경우, 이진형 변수로 통합하여 분석할 때, 이 변수의 배경이 되는 구체적인 행동을 알고 있어야하며, 도출한 결론이 각 행동에 동일하게 적용 가능한지 확인하는 것이 좋다.

    • 맥락 이해 : 비즈니스 감각과 당면한 문제의 특성을 기반으로 추출해야한다. 타임스탬프를 유추할 수 있는 단서
      • 빈도 : 단위 시간당 사건/행동 수, 짧은 지속시간 뒤에 긴 지속시간이 오는 캐치업 현상이 발생할 수도 있다.
      • 지속시간 : 감쇠 효과를 측정하는 방법으로 경험이 발생한 시점에 따라 가중치를 두는 것이 좋다.
      • 근접성 : 가까운 시기에 혹은 연속된 순서로 하는 행동은 우연이 아닐 가능성이 높고, 행동 데이터를 집계하는 데 가장 좋은 방법은 ‘x를 수행한 후 z를 수행하기’를 나타내는 변수를 만드는 것이다.
      • 사회적인 일상 : 행동 시간 다룰 땐, ‘하루 중 시간’과 ‘요일’ 변수를 두고 일별로 데이터를 관리하기보다는 ‘주 단위의 시간’ 변수를 관리하라. ex) 평일저녁
profile
공부한 것들을 정리하는 블로그

0개의 댓글