[Python for Marketing Research and Analytics] 4장 정리

시간에 따른 이벤트 수를 모델링하는데 자주 사용되는 이산 분포인 음이항 분포로 방문 수 시뮬레이션: numpy.random.negative_binomial(n, p , size)를 사용해 생성
n은 목표 성공 횟수, p는 단일 성공 확률
이메일이 있는 고객에 대해 평균 15회의 온라인 방문을 추가((cust_df.email=='yes')*15)
마지막으로 표본 중앙값에 상대적인 고객 연령을 기준으로 목표 평균에서 방문 수를 더하거나 뺀다 => 이 방법을 통해 어린 고객은 더 많은 온라인 방문으로 시뮬레이션 실행 가능
각 온라인 방문마다 주문 확률이 30%라고 가정하고 numpy.random.binomial()을 사용해 online_trans 변수 생성
금액은 로그 정규 분포를 따른다고 가정
같은 방법으로 매장 내 판매 데이터도 생성
거래가 음의 이항 분포를 따르고 먼 속에 사는 고객의 평균 방문 수가 더 낮다고 가정
데이터 검토

4.1.3 만족도 조사 응답 시뮬레이션

일부 고객에 대한 설문 조사 데이터 생성
각 고객의 모든 브랜드에 대한 만족도는 관찰할 수 없다고 가정
설문 조사 항목에 대한 고객의 응답은 전반적으로 관찰되지 않은 만족도(halo)와 서비스 및 제품에 대한 특정 만족도 수준을 기반으로 한다고 가정
halo 변수에서 이러한 점수를 생성하기 위해 numpy.random.normal()을 사용해 추출된 항목에 특정한 임의 값 sat_overall을 추가
설문 조사 응답은 일반적으로 불연속적인 순서 척도로 제공되기 때문에 numpy.floor() 함수를 사용해 연속 임의 값을 불연속 정수로 변환
일반적인 설문 조사는 5점 척도로 주어지기 때문에 이에 맞푸어 상한값과 하한값 조정

4.1.4 무응답 데이터 시뮬레이션

4.2.1 plot()을 사용해 기본 산점도 만들기

4.2.2 산점도의 포인트 색상

4.2.3 로그 스케일로 도식화

위와 같이 원시 값을 사용하면 판매 수치의 큰 왜도로 인해 결과를 확인하기가 여전히 어렵기 때문에 로그 스케일로 도식화 한다
plt.xscale('log')와 plt.yscale() 함수를 사용
이 코드에서는 log(0)이 정의되지 않았기 때문에 오류를 피하기 위해 spend+1 사용
cust_df의 경우 온라인 및 매장 내 판매가 모두 치우쳐 있기 때문에 두 축에 대해 로그 척도 사용
온라인 판매와 매장 내 판매 간에 연관성이 거의 또는 전혀 없는 것을 확인할 수 있다
두 채널에서 구매한 고객의 산점도에는 패턴이 표시되지 않기 때문에 온라인 판매가 매장 판매를 잠식했다는 증거가 없다
이메일 주소가 없는 고객이 있는 고객보다 온라인 판매가 약간 낮은 것으로 보아 고객에게 이메일 프로모션을 보낸 경우 프로모션이 효과가 있음을 추측할 수 있다

subplot() 함수를 사용해 매장과 가까운 곳에 사는 고객이 매장에서 더 많이 지출하는지, 더 멀리 사는 고객이 온라인에서 더 많이 지출하는지 여부를 살펴볼 수 있다
sublot(221) = subplot(2,2,1)
오른쪽 상단 패널에서 고객과 가장 가까운 매장까지의 거리와 매장 내 지출 간에 음의 관계가 있음을 알 수 있다 (가게가 가까울수록 매장 내 지출 상승)
반면 오른쪽 하단 패널에서 거리와 온라인 지출 사이에는 명확한 관계가 없음을 알 수 있다