# rdd
[HADOOP] SPARK RDD
RDD(Resilient Distributed Dataset)클러스터 내 다수의 머신에 분할되어 저장된 읽기 전용 컬렉션스파크 프로그램은 하나 이상의 RDD를 입력받고 일련의 변환 작업을 거쳐 목표 RDD 집합으로 변환된다. 이 과정에서 결과를 계산하거나 그 결과를 영
Resilient Distributed Dataset (RDD)
Spark의 핵심은 Resilient Distributed Dataset (RDD) -> 복구 가능한 분산 데이터 셋다양한 데이터 세트를 추상화 한 것.RDD는 분산되고 변형하는 성질을 갖고 있어 여러 클러스터에 나눌 수 있고 개인 컴퓨터에서도 작동 가능. 클러스터의
Spark 함수의 두 가지 분류 : action, transformation
spark 함수는 크게 action과 transformation 두 가지로 나누어진다.이를 이해하기 위해서는 lazy execution이라는 개념을 짚고 넘어가야 한다.연산/함수를 명령한 즉시 수행하는 것이 아니라, 기록만 해두고 쌓아두고 있다가 특정 유형의 연산/함수

Apache Spark
비교적 최근에 (2012년) 등장하여 선풍적인 인기를 얻고 있는 분산처리 프레임워크메모리 기반의 처리를 통한 고성능과 Functional Programming 인터페이스를 활용한 편리한 인터페이스가 특징Hadoop (MapReduce)는 매번 중간 결과를 디스크에 저장
[Spark]RDD
RDD에 대하여 알지 못한다면 Spark를 안다고 할 수 없다.그러니 이번 기회에 RDD에 대해서 자세히 정리해보자.RDD를 사용하기 이전엔 빅데이터 처리를 위하여 Hadoop의 MapReduce를 주로 사용하였다.MapReduce는 간단하게 Map과 Reduce 함수
[스터디] 스파크 완벽 가이드 13일차
RDD에는 key-value형태의 데이터를 다룰 수 있는 다양한 메서드가 존재한다. 이러한 메서드들은 <연산명>ByKey 형태의 이름을 가지며 PairRDD타입만 사용할 수 있다.
[스터디] 스파크 완벽 가이드 12일차
스파크에는 두 종류의 저수준 API가 있다. 분산 데이터 처리를 위한 RDD와 브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API가 있다. 저수준 API를 사용하는 상황은 다음과 같다.
[Spark] join, 집합 연산
Pair RDD 에서만 사용 가능.join \-> 키가 두 RDD 모두 있는 것만 Pair RDD 생성. Pair RDD (K,V) 와 Pair RDD (K,W) join 하면\-> (K, (V, W)) RDD 생성leftOuterJoin 첫번째에만 있는건 (K, (V
[Spark] Spark RDD 기본 정리
PairRDD : key-value 쌍 또는 key-value 튜플로 구성된 RDD. Pair RDD 에서만 사용할 수 있는 API도 있음. sample, takeSample, take RDD에서 랜덤으로 샘플링하는 API. 인자에 따라 복원, 비복원 추출 가
[Apache Spark] RDD 재사용을 위한 persist, cache, checkpointing
스파크는 RDD 재사용을 위해 몇 가지 옵션을 제공한다. → persistence, caching, checkpointingRDD 재사용을 통해 퍼포먼스를 향상시킬 수 있는 경우는 아래와 같다. 반복적인 연산매번 연산할 때마다 데이터 세트가 메모리 내에 존재하고 있는
[Apache Spark] RDD의 내부 동작
파티션 목록각 split을 연산(계산)하는 데에 사용되는 함수의존하는 다른 RDD 목록(optional) Key-Value RDD를 위한 파티셔너(optional) 각 split이 연산되는 데이 최적의 노드 목록 RDD는 여러 개의 파티션으로 이루어져 있고, 하나의
[Apache Spark] RDD 고급 개념
RDD에는 데이터를 키-값 형태로 다룰 수 있는 다양한 메서드가 있다<연산명>ByKey 형태 → PairRDD 타입만 사용 가능PairRDD 타입은 RDD에 맵 연산을 수행해 키-값 구조로 만들 수 있다. 즉, 레코드에 두 개의 값이 존재한다.KeyBy: 키를 생
[Apache Spark] RDD
분산 데이터 처리를 위한 RDD브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API1️⃣ 언제 사용할까?!고수준 API에서 제공하지 않는 기능이 필요한 경우 예) 클러스터의 물리적 데이터의 배치를 세밀하게 제어해야 하는 상황 RDD를

[Spark] 데이터프레임, 데이터셋, RDD
Spark 세션을 만드는 것이 Spark 프로그램의 시작appName을 통해 세션의 이름을 정하고.config를 통해 세션에 적용할 세부적인 옵션을 다룸.getOrCreate() 는 appName을 보고 기존에 같은 내용이 있으면 get 하고 없으면 create해줌로우

RDD map, filter 외부 모듈 함수 사용하기 in pyspark
pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.