#교차표
pd.crosstab(행, 열, normalize=column/index/all)
#mosaic plot
mosaic(데이터프레임명, [열 이름, 열 이름])
x축 길이는 객실 등급별 승객 비율
y축 길이는 사망, 생존 비율
axhline으로 그어진 선이 생존의 평균, 즉 3등급 객실의 손님은 생존<사망, 2등급과 1등급은 생존>사망
#100% stacked bar
집계된데이터.plot.bar(stacked=True)
#카이제곱검정
클수록 기대빈도로부터 실제 값에 차이가 크다는 의미
자유도의 2~3배보다 크면 차이가 있다고 봄
자유도 = 범주의 수 - 1
예를 들어 아래의 경우 Pclass의 범주는 3개이고 Survived의 범주는 2개 이므로 (3-1)*(2-1) = 2
나온 통계량이 2보다 크므로 차이가 있음