profile
데이터 엔지니어로 전향중인 백엔드 개발자입니다
post-thumbnail

Apache Spark(3) - RDD

RDD : Resilient Distributed Data, 단순하게는 분산되어 존재하는 변하지 않는 데이터 요소들의 모임이다RDD는 여러 머신으로 구성된 클러스터 환경에서의 분산처리를 전제로 설계되었고, 그 내부는 파티션이라는 단위로 나뉜다RDD는 위와 같은 Line

2022년 8월 13일
·
0개의 댓글
·
post-thumbnail

Apache Spark(2) - 구조

스파크는 크게 스파크 어플리케이션, 클러스터 매니저로 구성되어 있다스파크 어플리케이션 : 실제로 작업을 수행하는 역할클러스터 매니저 : 스파크 어플리케이션 사이에 자원 중계하는 역할Spark Driver(스파크 드라이버)와 Executor(익스큐터)로 구성된다하나의 노

2022년 8월 10일
·
0개의 댓글
·
post-thumbnail

Apache Spark(1) - 개요

최근 스타트업, 대기업 가릴 것 없이 데이터 분석이 유행이다. DDD(Data Driven Decision, 데이터 기반 의사결정)를 하기 위해 많은 회사에서 데이터 직무에 투자를 하고있다.데이터가 작을 때에는 Google Analytics와 같은 툴을 사용하면 되지만

2022년 8월 9일
·
0개의 댓글
·