Spark Standalone 구성

김도비·2024년 4월 1일

Spark

목록 보기

4/4

Spark Standalone 구성

회사 내부적으로 Spark을 사용하여 프로세스를 처리할 일이 생김.
기존에는 CDP,HDP,CDH 등 빅데이터 클러스터 환경에 구축되어 있는 Spark 사용하여 작업을 했지만
해당 Spark은 Hadoop 환경에 귀속이 되어있기에 해당 종속성을 최대한 제거한 채로 환경을 구성을 진행하였다.

Scala 2.12 버전을 사용하기로 하여 Spark Version은 3.1.3으로 진행하였다.

구축하면서 많은 이슈들이 존재했다.

Spark without Hadoop 구축을 시작하였고, Standalone으로 구축하여 Master/Worker를 구동하였으나,
라이브러리 이슈로 구동이 되지 않았다.
Spark을 구동함에 있어서 아직까지는 Hadoop 라이브러리에 의존성이 많이 존재하는 듯 하였고, Hadoop을 사용하지않더라도
해당 필수 라이브러리들이 존재하지않으면 구동 및 기본적인 Spark Job 제출이 되지않아, Spark without Hadoop -> Spark hadoop 라이브러리를 포함한 버전으로 진행하여 구축을 완료하였다.

김도비

모든 걸 기록하자

이전 포스트

Spark Standalone 구성

Spark

Spark Standalone 구성

Apache Spark 실습

0개의 댓글