멋쟁이 사자처럼 AI 스쿨 TIL-18

김영민·2022년 10월 17일

sns.countplot은 x축 과 y축 둘 중 하나만 사용
-> x, y 둘 중 하나만 작성하면 나머지축에 빈도를 구해서 표시합니다.
sns.barplot 에는 연산 기능이 있습니다. plotly 에서 barplot 처럼 연산을 할 수 있는 그래프는 무엇일까요?
-> histogram
histogram 에서 연산을 하는 옵션은 무엇이었을까요?
-> histfunc
uint8 은 무엇을 의미할까요?
-> 음수 없는 범위
메모리절약 => downcast, 2) 스토리지 절약(디스크공간) => parquet
메모리 절약 : 절약을 통해 더 많은 데이터를 불러와서 더 많이 분석할 수 있을지?
스토리지 절약 : 파일 크기를 줄여서 더 많은 파일을 저장할 수 있을까?
어디에서 pd.to_numeric 을 사용했었을까요?
-> 데이터 타입을 강제로 숫자로 바꾸기 위해서

bool 타입은 수치형 데이터가 아니므로 astype을 이용해 변경해주세요!

DB에서는 스키마에 지정을 해서 용량을 관리할 수 있지만 지금 불러온 CSV 파일에는 데이터 형식이 없습니다.
CSV 는 무엇의 약자일까요?
->'Comma-Separated Values'의 약자
tsv 는 무엇의 약자일까요?
-> 'Tab-Separated Values'의 약자

예를 들어 게시판의 게시글 내용일 때는 category 형태는 적합하지 않다.
범주형 형태일 때는 category 로 지정하면 메모리를 좀 더 효율적으로 사용할 수 있는데, 이 때 범주의 수가 너무 많다면 마치 게시글 내용처럼 많다면 적합하지 않을 수 있다.
여기에서는 약품코드이기 때문에 category 로 지정하면 용량이 조금 더 줄어든다

dtype이랑 dtype.name은 무슨차이?
-> plotly 에서 서브플롯을 그릴 때 columns.name = "company" 처럼 name 값을 가져다 사용할 수 있다.

Apache Parquet

효율적인 데이터 저장 및 검색을 위해 설계된 오픈 소스, 열 지향 데이터 파일 형식

복잡한 데이터를 대량으로 처리하기 위해 향상된 성능과 함께 효율적인 데이터 압축 및 인코딩 체계를 제공

Parquet은 Java, C++, Python 등을 포함한 여러 언어를 지원

Twitter 와 Cloudera 의 협업으로 만들어졌습니다.

Hadoop 창시자인 더그커팅의 trevni 열 저장 형식을 개선하기 위해 설계 되었습니다.

열의 값은 물리적으로 인접한 메모리 위치에 저장됩니다.

열 단위 압축은 효율적이고 저장 공간을 절약합니다.

열 값이 동일한 데이터 타입이기 때문에 압축에 유리합니다.

특정 열 값을 가져오는 쿼리는 전체 행 데이터를 읽을 필요가 없으므로 성능이 향상됩니다.

각 열에 다른 인코딩 기술을 적용할 수 있습니다.

열 스토리지, 필요한 데이터만 읽기
효율적인 바이너리 패킹
압축 알고리즘 및 인코딩 선택
데이터를 파일로 분할하여 병렬 처리 가능
논리 유형의 범위
메타데이터에 저장된 통계를 통해 불필요한 청크를 건너뛸 수 있습니다.
디렉토리 구조를 사용한 데이터 분할

csv 와 parquet 의 차이점?
->csv => 행단위 parquet => 열단위

열 단위 압축은 효율적이고 저장 공간을 절약

대용량 파일을 다룰 때 메모리를 절약할 수 있는 방법?
-> downcast

파일 압축효율을 높일 수 있는 방법?
-> parquet

김영민

배운걸 다 흡수하는 제로민

이전 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-Mini Project 2

다음 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-18

Apache Parquet

멋쟁이 사자처럼 AI 스쿨 TIL-Mini Project 2

멋쟁이 사자처럼 AI 스쿨 TIL-19

0개의 댓글