udemy Hadoop - Spark(1)

Michael Kim·2022년 5월 18일
0

0. Intro

드디어 유명한 Spark를 배우게 됐다. 왜 대부분의 기업들은 Spark를 사용하는 것일까? Spark는 무슨 기능을 제공하고 어떤 원리로 동작하는 걸까?

1. Spark

Spark란?

  • Apache Spark는 빅데이터 조작 및 분석 엔진이다.
  • Java, Python, Scala, R 언어를 이용하여 스크립트를 작성할 수 있다.
  • Spark는 Scala로 되어 있으며, Scala 언어 스크립트를 사용할 경우, 다른 언어를 사용할 때보다 빠르고 안정된 성능을 보여준다고 한다.
  • Spark 위에 다른 생태계가 내제되어 있어, SQL, 스트리밍, 머신러닝, 그래프 처리 기능을 사용할 수 있다.
  • 방향성 비사이클 그래프(DAG)를 사용하여 작업의 흐름을 최적화한다.
  • HDFS 기반 디스크 솔루션과 달리 메모리 기반 솔루션으로 최대한 정보를 RAM에 유지하고 보다 빠른 처리 속도를 제공한다. MapReduce와 비교했을 때, 10-100배의 속도를 낸다고 한다.

Spark Library

  1. Spark Streaming: 실시간으로 데이터를 입력할 수 있다. 동시다발적으로 배출해 내는 로그 데이터를 실시간으로 가져와 일정 시간 안에 분석하고 DB나 Data store에 결과 저장이 가능하다.

  2. Spark SQL: SQL 유사 함수를 사용해 데이터 세트를 변환한다.

  3. MLLib: 머신러닝이나 데이터 마이닝 기능을 사용할 수 있게 해준다.

  4. GraphX: 그래프 속성 분석 기능을 제공한다.

이어서...

  • Spark의 데이터 구조 - RDD vs Dataset vs Dataframe
  • Spark 직접 사용해보기

+) 참고하면 좋은 스파크 관련 블로그: https://data-flair.training/blogs/spark-tutorial/

profile
정리하고 복습하고 일기도 쓰고

0개의 댓글