Hadoop 기반 데이터를 SQL를 이용해 실시간 질의할 수 있게 해주는 시스템기존 Hive를 이용하여 동일한 기능을 사용할 수 있지만, Hive 경우 MapReduce 프레임워크를 이용하기에 속도적으로 큰 차이를 보인다.Impala는 실시간 데이터 접근을 위해 임팔라
보통 자사 솔루션을 CDH 환경에서 많이 구동하였고, 임팔라를 사용하였기에 접해본적은 없었지만 HDP 환경 및 CDP 환경에서는 Hive 기본옵션으로 Tez가 들어왔으므로 Hive on Tez에 대해서 정리해보고자 한다.Hive에 경우 실행엔진을 MR,TEZ,SPARK
회사에 다니면서 많이 다뤄봤지만 기본적인 개념이 많이 부족한 것 같아 정리해본다.하둡 클러스터는 하나의 마스터 노드와 여러개의 데이터노드로 구성클라이언트로부터 파일접근 요청에 응답 및 관리 역할Hadoop 내 존재하는 파일 및 디렉토리에 대한 "메타데이터" 관리모든 변
Hadoop1에 경우 써본적은 없지만 어떻게 발전이 되었는지 정리해두면 좋을 것 같다.NameNodeDataNodeHadoop 주요 구성요소 NameNode, DataNode가 있고, Hadoop 위에서 작업을 실행하기 위한 MapReduce Job에 구성요소는 Jo
실시간 데이터를 하이브에 저장해야하는 요건이 생길수가 있으므로, 참고자료를 남겨본다참조 : https://github.com/apache/hive/blob/master/kafka-handler/README.md
Apache Hudi는 HDFS 또는Cloud Storage 기반으로 대량의 분석데이터를 저장하고, 관리할수 있는 스토리지이다. Apache Hudi는 스트림을 통해서 실시간 데이터를 가져올수도 있고, 전통적인 batch 프로세싱으로 데이터를 저장할 수도 있다.기존 H
Hive를 사용하며 상세한 Hive에 내용을 잘모르는 것 같아 정리를 해본다.메타스토어에 저장되는 테이블의 종류에는 2가지가 존재한다.생성 시 location(hive.metastore.warehouse.dir) 위치에 directory에 저장되는 테이블기본적으로
Hive 정렬관련해서 정리해보고자 한다.크게 Order By, Sort By, Cluster By,Distribute By 4가지로 나뉜다.1개의 리듀서로 전체데이터 정렬데이터 용량이 클수록 오류 발생확률 높아짐리듀서별로 데이터 정렬리듀서 개수가 많을수록 속도는 빠름최
회사에서 오브젝트 스토리지 관련하여 S3를 사용하던 도중 AWS가 없을 때 대체할 오브젝트 스토리지를 찾아보던 중 minIO를 알게 됨.오픈소스로써 분산모드로 사용도 가능하여 데이터 레이크나 저장소로 활용 하기 좋을 거 같아서 설치 및 기록해본다. 기본적으로 제공해주는