thriftserver가 jdbc odbc 연결로 spark sql을 사용할 수 있도록 함.
thriftserver는 spark application중 하나.
thrift server -> jdbc -> sql
%sh
/skybluelee/spark3/sbin/start-thriftserver.sh --master spark://spark-master-01:7177 --executor-cores 2 --total-executor-cores 6 --executor-memory 2G --packages mysql:mysql-connector-java:5.1.49
jps
starting org.apache.spark.sql.hive.thriftserver.HiveThriftServer2, logging to /skybluelee/spark3/logs/spark-spark-org.apache.spark.sql.hive.thriftserver.HiveThriftServer2-1-spark-master-01.out
2065 ZeppelinServer
2306 SparkSubmit
1590 SecondaryNameNode
2294 Jps
1768 ResourceManager
1066 Master
1324 NameNode
2222 RemoteInterpreterServer
sql -> jdbc -> SparkSubmit -> Executor에서 분산 병렬로 실행 -> SparkSubmit -> jdbc로 return
spark master web UI: http://spark-master-01:4040/ 에서 확인 가능
%thrift
show tables;
%thrift
select * from airline_on_time_partitioned limit 100;
jdbc에서 대용량 데이터를 요청한다면 SparkSubmit에서 용량 문제로 thrift server가 중단될 수 있다.