# column db

1개의 포스트

Parquet이란?

서론 회사 코드를 보니 data lake로 사용되는 s3에 데이터를 올릴 때 pandas의 to_parquet 메서드를 활용해 parquet 형태로 변환 해서 저장하는 것을 보았다. 새로 보는 형식이어서 저장하려고 한다. Parquet는 나무조각을 붙여 만든 마루바닥이라는 뜻으로 트위터에서 개발했다. Hadoop EcoSystem Format data를 저장하는 방식 중 하나로 hadoop Eco Sytstem에서 많이 사용되는 format 장점 빠른 읽기 - 디스크 IO가 적다. 컬럼 단위로 데이터가 저장되어 필요한 컬럼만 읽어 속도 빠름 높은 압축률 - 컬럼 단위로 구성하여 데이터가 균일 해 압축률이 높아 파일 크기도 작다. 종속되지 않는 언어 컬럼 별로 적합한 인코딩을 사용 가능 - 성능에 유리한 인코딩 방식으로 포맷팅 가능 비슷한 것으로는 ORC, avro가 있다. 컬럼 기반 저장 포맷 컬럼 기반 스토리지에 의한

2023년 1월 3일
·
0개의 댓글
·