Resilient Distributed Dataset (RDD)

김형수·2023년 6월 28일

spark

목록 보기

1/2

Spark의 핵심은 Resilient Distributed Dataset (RDD) -> 복구 가능한 분산 데이터 셋

다양한 데이터 세트를 추상화 한 것.

RDD는 분산되고 변형하는 성질을 갖고 있어 여러 클러스터에 나눌 수 있고 개인 컴퓨터에서도 작동 가능. 클러스터의 특정 노드에 이상이 생겨도 자동으로 처리, 노드 하나가 작동을 멈춰도 계속 작동하면서 작업을 재분배.
RDD는 큰 데이터 셋 -> 한 데이터를 다른 데이터로 변환하는데 쓰임

sc객체를 사용해서 RDD를 생성 할 수 있음.

rdd.map(lamdba x: x**x

Spark가 빠른이유. Spark에 액션을 입력하면 바로 유향 비순환 그래프를 생성하여 원하는 값을 얻으려면어떻게 해야하는지 최적화된 방법을 계산.