# rdd

11개의 포스트

[Spark]RDD

RDD에 대하여 알지 못한다면 Spark를 안다고 할 수 없다.그러니 이번 기회에 RDD에 대해서 자세히 정리해보자.RDD를 사용하기 이전엔 빅데이터 처리를 위하여 Hadoop의 MapReduce를 주로 사용하였다.MapReduce는 간단하게 Map과 Reduce 함수

2022년 4월 10일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 13일차

RDD에는 key-value형태의 데이터를 다룰 수 있는 다양한 메서드가 존재한다. 이러한 메서드들은 <연산명>ByKey 형태의 이름을 가지며 PairRDD타입만 사용할 수 있다.

2022년 2월 2일
·
0개의 댓글

[스터디] 스파크 완벽 가이드 12일차

스파크에는 두 종류의 저수준 API가 있다. 분산 데이터 처리를 위한 RDD와 브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API가 있다. 저수준 API를 사용하는 상황은 다음과 같다.

2022년 1월 31일
·
0개의 댓글

[Spark] join, 집합 연산

Pair RDD 에서만 사용 가능.join \-> 키가 두 RDD 모두 있는 것만 Pair RDD 생성. Pair RDD (K,V) 와 Pair RDD (K,W) join 하면\-> (K, (V, W)) RDD 생성leftOuterJoin 첫번째에만 있는건 (K, (V

2021년 12월 20일
·
0개의 댓글

[Spark] Spark RDD 기본 정리

PairRDD : key-value 쌍 또는 key-value 튜플로 구성된 RDD. Pair RDD 에서만 사용할 수 있는 API도 있음. sample, takeSample, take RDD에서 랜덤으로 샘플링하는 API. 인자에 따라 복원, 비복원 추출 가

2021년 12월 20일
·
0개의 댓글

[Apache Spark] RDD 재사용을 위한 persist, cache, checkpointing

스파크는 RDD 재사용을 위해 몇 가지 옵션을 제공한다. → persistence, caching, checkpointingRDD 재사용을 통해 퍼포먼스를 향상시킬 수 있는 경우는 아래와 같다. 반복적인 연산매번 연산할 때마다 데이터 세트가 메모리 내에 존재하고 있는

2021년 11월 30일
·
0개의 댓글

[Apache Spark] RDD의 내부 동작

파티션 목록각 split을 연산(계산)하는 데에 사용되는 함수의존하는 다른 RDD 목록(optional) Key-Value RDD를 위한 파티셔너(optional) 각 split이 연산되는 데이 최적의 노드 목록   RDD는 여러 개의 파티션으로 이루어져 있고, 하나의

2021년 11월 30일
·
0개의 댓글

[Apache Spark] RDD 고급 개념

RDD에는 데이터를 키-값 형태로 다룰 수 있는 다양한 메서드가 있다&lt;연산명>ByKey 형태 → PairRDD 타입만 사용 가능PairRDD 타입은 RDD에 맵 연산을 수행해 키-값 구조로 만들 수 있다. 즉, 레코드에 두 개의 값이 존재한다.KeyBy: 키를 생

2021년 11월 30일
·
0개의 댓글

[Apache Spark] RDD

분산 데이터 처리를 위한 RDD브로드캐스트 변수와 어큐뮬레이터처럼 분산형 공유 변수를 배포하고 다루기 위한 API1️⃣ 언제 사용할까?!고수준 API에서 제공하지 않는 기능이 필요한 경우 예) 클러스터의 물리적 데이터의 배치를 세밀하게 제어해야 하는 상황 RDD를

2021년 11월 30일
·
0개의 댓글
post-thumbnail

[Spark] 데이터프레임, 데이터셋, RDD

Spark 세션을 만드는 것이 Spark 프로그램의 시작appName을 통해 세션의 이름을 정하고.config를 통해 세션에 적용할 세부적인 옵션을 다룸.getOrCreate() 는 appName을 보고 기존에 같은 내용이 있으면 get 하고 없으면 create해줌로우

2021년 7월 20일
·
0개의 댓글
post-thumbnail

RDD map, filter 외부 모듈 함수 사용하기 in pyspark

pyspark에서 RDD의 디테일한 데이터 가공작업시에 map은 많이 사용하는 기능이다. lambda를 사용해 간단히 처리하거나, 별도의 함수를 만들어 코드를 간단히 처리할수 있다. 이때 발생하는 에러를 해결해본다.

2020년 5월 30일
·
0개의 댓글