Hadoop, Hive, Spark, Airflow

고독한 키쓰차·2022년 7월 29일
0

Cloud

목록 보기
21/21

Hadoop

Storage Unit

  • Storage Unit -> HDFS 라 불림
  • HDFS : 데이터를 분산처리 하기 위해 저장소를 나눔
    예) 600MB -> 128 MB * 5
  • HDFS 의 장점은 하나의 저장소에 복제본을 저장해두기 때문에, 하나의 노드가 망가져도 상관없음

MapReduce

  • 각각 특성에 맞게 나눠서 처리함
  • 개별적으로 처리하고 그 다음에 결과를 합산하는 방식
  • 로드밸런싱이 향상

Hadoop Clustering

  • YARN

Hadoop Ecosystem

  • Hive, Spark, Flume

Hive

SQL

  • Hadoop 에서 SQL 로 읽을 수 있께 하는 SQL언어

사용 안됨

  • 관계형 DB
  • Online transaction processing
  • real time update (X)

관계형 DB와 차이점

  • 스키마 안씀
  • 다룰 수 있는 용량 차이 굉장히 큼, HIVE >>>> RDBS

Spark

Scala

  • Scala 언어로 사용됨
  • 겁나 빠름 (In-memory)

Airflow

  • Brightics 같이 시각화 해줄 수 있는 아파치 툴
profile
Data Scientist or Gourmet

0개의 댓글