[빅데이터]Spark tool의 실무 적용

건너별·2021년 11월 7일
1

BigData

목록 보기
1/7

Spark의 특징

  • RDD와 Dataframe의 주 데이터 타입
  • 하둡과 달리 RAM에서 I/O가 발생하도록 설정 가능: 속도에서 비약적 차이 발생

Lazy execution

  • 효율적인 처리/분석 가능
  • Transform/Action으로 구분하여 Action일 경우에만 실제 실행이 발생 : 속도 향상

Transfrom: filter, select, drop, join, dropDuplicates, distinct, withColumn, pivot, get_json_object, sample
Action: count, collect, show,head, take

RDD

DataFrame

  • SparkSQL 이용

SparkML

  • 대량의 데이터 처리를 위한 머신러닝 Framework
  • 텐서플로우나 사이킷런에 비해 모델 업데이트가 느리지만, 대량 데이터 처리에 적합함
  • 학습에 필요한 전처리를 스파크로 진행하고 모델링은 텐서플로우와 같은 타 라이브러리로 진행하거나, 스파크 지원 모델로 충분한 프로젝트라면 모델링까지 스파크로 마무리하여 작업의 속도를 높일 수 있음

Reference

profile
romantic ai developer

0개의 댓글