[Apache Spark] 스파크 간단히 살펴보기 🍊

연수·2021년 11월 4일

spark

목록 보기

2/26

컴퓨터 클러스터는 여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용할 수 있게 만든다. 이 클러스터에서 작업을 조율할 수 있는 프레임워크가 바로 스파크이다. 스파크는 클러스터의 데이터 처리 작업을 관리하고 조율한다.

스파크가 연산에 사용할 클러스터는 스파크 스탠드얼론 클러스터 매니저, 하둡 YARN, 메소스 같은 클러스터 매니저에서 관리한다.

사용자가 클러스터 매니저에 스파크 애플리케이션을 제출하면, 이를 제출 받은 클러스터 매니저는 실행에 필요한 자원을 할당하고, 이 할당 받은 자원으로 작업을 처리하게 된다.

🍎 스파크 애플리케이션

스파크 애플리케이션은

드라이버 프로세스
- 스파크 애플리케이션 정보의 유지 관리
- 사용자 프로그램이나 입력에 대한 응답
- 전반적인 익스큐터 프로세스의 작업과 관련된 분석
- 배포 및 스케줄링 역할
다수의 익스큐터 프로세스
- 드라이버 프로세스가 할당한 작업을 수행
- 진행 상황을 다시 드라이버에 보고

로 구성된다.
스파크 애플리케이션의 아키텍처

스파크는 사용자를 대신해 팡선이나 R로 작성한 코드를 익스큐터의 JVM에서 실행할 수 있는 코드로 변환한다.

다양한 언어로 스파크를 사용할 수 있는 이유는 스파크가 기본적으로 두 가지 API를 제공하기 때문이다.

가장 대표적인 구조적 API
테이블의 데이터를 로우와 컬럼으로 표현
스키마: 컬럼과 컬럼의 타입을 정의한 목록
스파크 DataFrame은 수천 대의 컴퓨터에 분산되어 있다.
- 왜⁉️ → 단일 컴퓨터에 저장하기에는 데이터가 너무 크거나 계산이 너무 오래 걸릴 수 있기 때문

🗂️ 파티션

예)

# DataFrame에서 짝수를 찾는 트랜스포메이션
divisBy2 = myRange.where("number % 2 = 0")

🕝 지연 연산

🔥 이 과정은 전체 데이터 흐름을 최적화하는 엄청난 강점을 가지고 있다.

예) 조건절 푸시다운

원시 데이터에서 하나의 로우만 가져오는 필터

→ 이 필터를 데이터소스로 위임 (만약 데이터 저장소가 데이터베이스라면 where 절의 처리를 데이터베이스에 위임해서 스파크는 하나의 레코드만 받는다.)

→ 필요한 레코드 하나만 읽기! 처리에 필요한 자원을 최소화하며 최적화 가능

트랜스포메이션 → 논리적 실행 계획 / 액션 → 실제 연산 수행
일련의 트랜스포메이션으로부터 결과를 계산하도록 지시하는 명령
액션을 지정하면 스파크 잡이 시작된다
스파크 잡은 필터(좁은 트랜스포메이션)를 수행한 후 파티션 별로 레코드 수를 카운트(넓은 트랜스포메이션)한다. 그리고 각 언어에 적합한 네이티브 객체에 결과를 모은다.