spark thrift로 csv 조회하기

code_able·2023년 12월 16일

이번에 대용량 csv파일을 조회해야 할 일이 생겼다.
pandas로 하기에 용량이 매우 컸다.

단기 프로젝트로 간단하게 해결해 볼 계획이다.

방식은 spark thrift를 띄워
hive에 external table을 만들고
spark에서 제공하는 ansi sql을 사용는 것이다.

파티셔닝

/data
|-- year=2023
|   |-- month=1
|   |   |-- day=1
|   |   |   |-- data1.csv
|   |   |   |-- data2.csv
|   |   |-- day=2
|   |       |-- data3.csv
|-- year=2024
    |-- month=3
        |-- day=15
            |-- data4.csv

docker container 실행

docker pull ubuntu
docker run -ti \
-p 10000:10000 \
-v /data:/data
--name spark \
ubuntu /bin/bash

spark 설치

mkdir spark
cd spark
wget https://archive.apache.org/dist/spark/spark-3.2.3/spark-3.2.3-bin-hadoop2.7.tgz
tar xvf spark-3.2.3-bin-hadoop2.7.tgz
rm spark-3.2.3-bin-hadoop2.7.tgz

spark 환경변수 세팅

vi ~/.bashrc

export SPARK_HOME=/spark/spark-3.2.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

source ~/.bashrc

thrift 서버 실행

start-thriftserver.sh

database 생성

CREATE DATABASE [database name];

dbeaver 접속

External Table 생성

CREATE external TABLE user_logs (
  id integer,
  name string,
  email string,
  age integer

)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '/data/rems'
PARTITIONED BY (year INT, month INT, day INT)
TBLPROPERTIES ("skip.header.line.count"="1");

데이터 스캔

MSCK REPAIR TABLE user_logs;

Partition Pruning

select *
from user_logs
where year=2023
  and month=5
  and day=15

spark thrift로 csv 조회하기

파티셔닝

docker container 실행

spark 설치

spark 환경변수 세팅

thrift 서버 실행

database 생성

dbeaver 접속

External Table 생성

데이터 스캔

Partition Pruning

pyhive로 접속하기

Airflow CPU 점유율이 높은 현상

DB 마이그이션 Flyway

0개의 댓글