keithcha.log
로그인
keithcha.log
로그인
Hadoop, Hive, Spark, Airflow
고독한 키쓰차
·
2022년 7월 29일
팔로우
0
airflow
hadoop
hive
spark
0
Cloud
목록 보기
21/21
Hadoop
Storage Unit
Storage Unit -> HDFS 라 불림
HDFS : 데이터를 분산처리 하기 위해 저장소를 나눔
예) 600MB -> 128 MB * 5
HDFS 의 장점은 하나의 저장소에 복제본을 저장해두기 때문에, 하나의 노드가 망가져도 상관없음
MapReduce
각각 특성에 맞게 나눠서 처리함
개별적으로 처리하고 그 다음에 결과를 합산하는 방식
로드밸런싱이 향상
Hadoop Clustering
YARN
Hadoop Ecosystem
Hive, Spark, Flume
Hive
SQL
Hadoop 에서 SQL 로 읽을 수 있께 하는 SQL언어
사용 안됨
관계형 DB
Online transaction processing
real time update (X)
관계형 DB와 차이점
스키마 안씀
다룰 수 있는 용량 차이 굉장히 큼, HIVE >>>> RDBS
Spark
Scala
Scala 언어로 사용됨
겁나 빠름 (In-memory)
Airflow
Brightics 같이 시각화 해줄 수 있는 아파치 툴
고독한 키쓰차
Data Scientist or Gourmet
팔로우
이전 포스트
AWS 공부 (5)
0개의 댓글
댓글 작성