# HBase

[데이터 플랫폼 운영 / 개발] - HBase 2 (Data Model)
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.HBase 의 경우 원천에서 실시간 데이터 저장

[데이터 플랫폼 운영 / 개발] - HBase 1 (Overview)
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.HBase 의 경우 원천에서 실시간 데이터 저장

Apache Hbase
Hbase란? 분산 NoSQL '데이터저장소'로 여러 가지의 NoSQL중 Column-Family model에 속한다. 구글의 BigTable을 기반으로 설계되었으며, HDFS위에서 동작한다. 비정형/반정형 대량 데이터에 대한 분석 처리 지원에 적합하며, 강력한 일관성
HBase migration (export/import)
HBase 데이터를 migration 하는 경우 정리해봄이미 Hadoop cluster와 HBase가 함께 결합되어 구동되는 상황이라 가정합니다.migration 순서는 아래 순서대로 진행함원본 HBase에서 export 단계아래 명령어들 따르시면 export가 진행됩
[SQL]CP2를 하다 NoSQL을 만나다
SQL과 NoSQL 중 왜 NoSQL? SQL : 명확한 스키마가 있어 무결하나, join문이 복잡해질 가능성이 많고 수평적 확장이 어렵다. NoSQL : 스키마가 없어 유연하고 읽고 쓰기가 빠르나, 데이터가 중복될 수 있어 업데이트가 어렵다. 나의 경우, 인스타와
[Hbase] Master Aborted 에러
HBase를 껐다 켰다 하는 경우 Hbase 마스터가 hbase regionserver 의 목록들을 업데이트 하지 않을경우 주키퍼 zkNode와 데이터 정합성이 일치 하지 않아 발생 Master에 이상이 생기는 경우가 종종 발생하는데 임시적으로 아래와 같은 커맨드를
Apache Hive - Apache HBase 연동
$hive --auxpath $HIVE_HOME/lib/hive-hbase-handler-2.3.2.jar,\\$HIVE_HOME/lib/zookeeper-3.4.6.jar,$HIVE_HOME/lib/guava-14.0.1.jar \\\--hiveconf hbase.m

HBase Bloom Filter
Bloom Filter는 특정 집합내에 특정 원소가 존재하는지 확인하는데 사용되는 자료구조이다. 따라서 I/O의 관점에서 봤을 때, 특정 파일내부에 원하는 데이터의 여부를 빠르게 알 수 있기 때문에 I/O 횟수를 줄일 수 있다는 장점이 있다. 하지만, Bloom Fil

[HBase] HBase 개요
HDFS 위에 구축된 비관계형 DB (Non-relational)수평적으로 확장성을 가짐 (scalable)HDFS 기반으로 분할 저장된 데이터를 SQL로 빠르게 조회 가능HDFS 에 저장된 데이터를 HBase 를 활용해 대규모로 외부로 내보낼 수 있음SQL 미지원,

HBase Overall Structure Part2.
클라이언트에서 데이터를 PUT하라는 쿼리가 발생하면, 해당 데이터는 WAL에 기록된다. WAL은 Write-Ahead Log로 입력된 데이터를 append형식으로 관리한다. WAL에 쌓인 데이터는 Memstore로 copy가 된다. 이때 클라이언트에 데이터가 성공적으로

HBase Overall Structure Part 1.
Hadoop Software Library는 간단한 프로그래밍 모델을 사용하여 여러대의 클러스터에서 대규모 데이터 세트를 분산 처리 할 수 있게 해주는 프레임워크이다. Hadoop은 대용량 데이터를 적은 비용으로 더 빠르게 분석할 수 있는 소프트웨어이며, 빅데이터 처리

HBase BlockCache
HFile의 구성 요소중 하나인 Data Block은 Key-Value의 형태로 이루어진 데이터를 저장하고 있는 block이다. 즉 Data Block은, MemStore로 부터 Flush operation이 수행되었을 때, MemStore에 저장하고 있던 Key-Va
[Line Developer Day 2021] LINE Messaging Platform에서 HBase와 Kafka 데이터 파이프라인 활용 사례
개요 2021.11.10~11 진행되는 Line 개발자 컨퍼런스 세션 시청 후 정리 link : https://linedevday.linecorp.com/2021/ko/ DAY1 13:40-14:20 KST LINE Messaging Platform에서 HBase와 K
HBase
아파치 HBase는 Hadoop을 위한 공개 NoSQL 분산 데이터 베이스이다. 아파치 소프트웨어 재단에서 아파치 하둡 프로젝트 일부로서 개발되었으며 하둡의 분산 파일 시스템인 HDFS위에서 동작한다. 대량의 흩어져 있는 데이터 저장을 위해 falut-tolerent