SPARK TIPS

yozzum·2023년 10월 10일
0

Spark

목록 보기
20/21
  1. sortWithinPartitions("COL")
  • transformation을 처리하기 전에 성능을 최적화하기 위해 partition별 정렬을 수행하기도 한다.
spark.read.format("json").load("/data/*_sample.json").sortWithinPartitions("COL")
  1. repartition and coalesce
  • repartition은 무조건 전체 데이터를 셔플한다. 파티션 수를 늘리거나 특정 컬럼을 기준으로 파티션을 만드는 경우에만 사용한다.
  • coalesce는 전체 데이터를 셔플하지 않고 파티션을 병합하려는 경우에 사용한다.
profile
yozzum

0개의 댓글