
Hive란
- 하둡에서 정형화된 데이터 처리를 위한 인프라
- SQL과 유사한 방식으로 접근성을 높였다!
- 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션
주요 역할
- 아파치 HDFS나 HBase 와 같은 데이터 저장 시스템에 저장되어 있는 대용량 데이터 집합 분석
- HiveQL이라고 불리는 SQL같은 언어를 제공하며 맵리듀스의 모든 기능 지원
- 쿼리를 빠르게 하기 위하여 비트맵 인덱스를 포함하여 인덱스 기능 제공
- 하둡에서 동작하는 데이터 웨어하우스 인프라 구조로서 데이터 요약, 질의 및 분석 기능 제공
주요 구성요소
- CLI : 사용자가 Hive 쿼리를 입력하고 실행할 수 있는 인터페이스
- JDBC/ODBC Driver : 하이브 쿼리를 다양한 데이터베이스와 연결하기 위한 드라이버 제공
- Query Engine
- 사용자가 입력한 하이브 쿼리를 분석하여 실행 계획 수립
- 하이브 QL을 맵리듀스 코드로 변환 및 실행
- MetaStore
- 하이브에서 사용하는 테이블의 스키마 정보를 저장 및 관리
- 기본적으로 DerBy DB가 사용되나 다른 언어로 변환 가능 (MySQL, PostGRESQL)
** Query 란 : 데이터베이스에 정보를 요청하는 것
Structure

[출처 : https://medium.com/plumbersofdatascience/hive-architecture-in-depth-ba44e8946cbc]

Reference