멋사 ai스쿨 TIL - (21)

eve·2022년 10월 17일
0

likeLion

목록 보기
19/45

용량 절감

  1. bool값이 int8보다 용량을 더 많이 먹는다
  2. downcast를 활용해서 용량을 줄일 수 있다.
df.dtypes[0].name

자료형 이름만 얻어오는 예시이다. 'unit16' 따위의 값을 리턴한다.
4. csv는 열 단위, parquet은 행 단위의 압축을 지원하여 후자가 더 저장공간을 절약하는 데에 용이하다.
5. 기본적으로 pyarrow로 저장하는데 pyarrow로 저장하는데 문제가 있으면 fastparquet으로 자동으로 저장이 된다.

parquet

  1. 문자 데이터 > 숫자 데이터
    두 데이터가 섞여 있으면 고려 사항이 늘어나므로 압축률이 증가하며, 문자데이터가 기본적으로 숫자 데이터보다 용량이 크다.
profile
유저가 왜 그랬을까

0개의 댓글