차이제곱 테스트.
1 sample. 예상 평균 값과 각각의 value의 차이를 제곱하여 양수로 만들고 차이를 극대화 하여 도출해낸 값을 실제 집단(population)에 적용할 수 있는 지 확인하는 테스트이다.
2 sample. 두 모집단의 분포도를 비교하여 서로 독립한지 아닌지 판명하는 테스트.
이를 통해 두 집단의 연관성을 찾아 낼 수 있다.
T-test.
1 sample : 컬럼이나 데이터의 평균값을 비교하고자 하는 평균 값과 크기를 비교한다.
2 sample : 두 개의 컬럼이나 데이터의 평균 값이 같은 다른 지 판명한다.
조건: 같은 분포, 즉 서로 연관이 있는 데이터여야 한다.
df.to_numpy() : 데이터 프레임을 numpy array 형식으로 바꿔준다.
df.groupby('')[''].agg(**{'ppp':'mean'}).sort_values(by=['ppp'],ascending=False).head(10)
groupby : 원하는 그룹으로 묶어 준다.
('') : 이 때 컬럼은 카테고리 형식이다. column 안의 이름대로 구분한다.
[''] : ('')안에 해당하는 값을 불러온다.
.agg(**{''} : 새로 만들 컬럼 이름을 넣는다.
: 'mean'} : 사용할 함수를 넣는다.
.sort_values(by=[''] : by = 에 있는 컬럼의 value대로 정렬한다.
,ascending = Ture or False)