멋쟁이 사자처럼 AI 스쿨 TIL-14

김영민·2022년 10월 11일
0

.str 접근자는 시리즈 문자열 형식에만 사용

pd.crosstab은 피봇테이블

전체를 1로 봤을 때 normalize

Tidy Data는 각 변수가 열이고 각 관측치가 행이되도록 배열된 데이터로 정의
= 깔끔한 데이터

데이터 타입 변경
-> pd.to_numeric(df_last["분양가격"], errors = "coerce")

regex=True를 쓰는 이유
나중에 디폴트값이 False가 될 수 있기 때문에

"분양가격"이 object(문자) 타입으로 되어 있어 문자열 타입을 계산할 수 없기 때문에 수치 데이터로 변경
-> to_numeric

pd.crosstab(normalize=True)는 전체를 1로 해서 각각의 비율을 구함
-> 연도별 혹은 자치구별 등 독립적인 비교를 위해서는 직접 나눠줘야 함

df.groupby()

  • groupby는 데이터프레임의 메서드임
  • by에 인덱스 지정(멀티인덱스 지정 시 대괄호 사용)
  • 그룹화에서 연산 적용 가능
profile
배운걸 다 흡수하는 제로민

0개의 댓글