# HDFS

[Hadoop][HDFS] HDFS의 구조 (Architecture)
💡 HDFS의 구조에 대해 알아봅니다.HDFS는 Master, Slave 구조로 하나의 Namenode와 이에 할당된 여러 개의 Datanode로 구성됩니다. 네임노드는 메타데이터(데이터 노드의 위치정보 등등)를 가지고 있고 데이터는 블룩 단위로 나누어서 데이터노드에
HDFS Architecture(5) - Eraser Coding
SoftwareHadoop은 기본적으로 data block에 대해 3개의 복제본을 유지(replication-factor)이 data block은 fault tolerance를 위해 물리적으로 다른 위치(rack, data center)로 분산시킴복제본 정책은 데이터
HDFS Architecture(4) - Name Node HA
Name Node HA가 필요한 이유 namenode는 SPOF(단일장애지점)인데, 이는 Hadoop의 기본 아키텍처가 namenode를 master로, datanode들을 slave로 하는 master-slave 구조를 따르기 때문임. 이 중 namenode는
HDFS Architecture(3) - File Read/Write
클라이언트가 DistributedFileSystem object의 open() 메소드로 HDFS 파일을 읽겠다고 요청DistributedFileSystem은 RPC(Remote Procedure Call)로 namenode에 연결. open 대상이 되는 파일의 메타데이
HDFS Architecture(2) - Name Node, Data Node
네임노드는 블록의 위치, 권한 등의 정보를 메모리에 유지Fsimage : File System image. Name Node가 생성된 이후로부터의 HDFS의 namespace 정보Edit log : Fsimage로부터 현재까지의 변경사항 로그네임노드의 기능과 역할Met
HDFS Architecture(1) - Block based file system
HDFS는 블록 구조의 파일 시스템임HDFS에 저장되는 모든 파일은 일정 크기의 블록으로 나뉘어 여러 서버에 분산되어 저장됨블록의 기본 크기는 128MB이며, 변경 가능함(최근엔 서버 사양이 좋아져, 256MB, 512MB, 1G 등 다양하게 구성)파일과 블록하나의 파
HDFS란?(HDFS의 주요 특징)
HDFS의 Design Goal Hardware Failure Streaming Data Access Large Data Sets Simple Coherency Model Moving Computation is Cheaper than Moving Data
HIVE - Internal error processing abort_txn
2023-02-28T19:36:04,684 INFO aff416f0-8cb9-4382-8dc1-fa123e9d6418 HiveServer2-Handler-Pool: Thread-99: metastore.RetryingMetaStoreClient (:()) - Retr

HDFS, Hadoop으로 데이터 살펴보기
가상머신을 사용하고 있기 때문에 putty에서 wget 명령어를 이용해 데이터를 다운받을 것이다. 그러기 위해 github에 데이터를 업로드 해야한다.8division1.data란 데이터를 업로드했다. 업로드한 데이터를 우클릭하면 데이터의 위치가 나오고 그 위치를 wg

[hadoop] missing block의 이해, 발생원인
하둡의 file은 block이라는 단위로 나뉘고, block은 여러개의 replica(복제본)으로 존재함 block의 단위는 기본적으로 128MB, 256MB등으로 설정됨
HDFS 작동방식
빅데이터를 전체 클러스터에 분산해 안정적으로 저장하여 애플리케이션이 그 데이터를 신속하게 액세스해 분석할 수 있게함.HDFS는 대용량 파일들을 다루기 위해 만들어짐.대용량 파일들을 작은 조각으로 나누어 클러스터 전체에 걸쳐 분산시키는데 최적화되어있다. \- 대용량 파
Failed to place enough replicas, still in need of 1 to reach 3
hadoop datanode 3대에서 decomission 시 아래와 같은 warning 발생.기존 복제 개수인 3을 충족하지 못하기 때문.2022-12-16 19:43:57,601 WARN blockmanagement.BlockPlacementPolicy (Bloc

HDFS
하둡 분산 파일 시스템(Hadoop Distributed File System)기존에도 parallel computing이라는 단어가 있지만 이 단어는 보다 cpu로 병렬처리를 한다는 것에 좀 더 초점을 둔 용어 distributed는 data에 좀 더 초점을 둔 용어

HDFS란?
HDFS란 Hadoop File System의 약자로 하둡 파일 시스템을 의미합니다.HDFS란 말그대로 하둡이 실행되는 파일을 관리해주는 시스템입니다.이는 크게 NameNode, DataNode로 구성되어져 있습니다.데이터 파일 크기나 개별 장비의 파일 시스템 크기에
HDFS Balancer에 대해
getLiveDatanodeStorageReport RPC 호출.각 데이터노드의 정보 획득. 스토리지 용량, dfs 사용 공간, 남은 공간 등.사용률이 높거나 평균 이상인 스토리지를 소스로, 사용률이 낮거나 평균 이하인 스토리지를 대상 스토리지로 선택.해당되는 소스 및
데이터노드 복제 파이프라인
HDFS 파일에 데이터를 쓸때..1\. 클라이언트 로컬 캐시에 데이터 기록. 캐시 사이즈가 HDFS 블록 사이즈에 도달하면 네임노드에서 데이터노드 목록 요청 / 검색2\. 클라이언트는 데이터노드에서 데이터노드로 연결되는 파이프라인 구성. 첫번째 데이터 블록을 첫번째 데

Database - Hadoop 다시 깔고^^ wordcount 예제 실행(homebrew 사용 안 함)
제가 hadoop을 10번 넘게 깔았다 지웠다 한 사람으로 보이나요?네..버전 호환이 너무 안되고,, datanode에서 자꾸 오류가 나길래 homebrew가 아닌.. wget을 사용해주었습니다https://archive.apache.org/dist/hadoo

[Week2] 데이터 엔지니어링이란?) 04. Hadoop Ecosystem
💡 (Apache) Hadoop : High-Availability Distributed Object-Oriented Platform의 약자

Sqoop SQL Server to Hive
👉 SQL Server 데이터를 Hive로 옮기시려는 분첫 번째 마이그레이션 이후, 데이터를 계속 덮어쓰는 방식을 사용하다가, 너무 답답해서 이어쓰는 방식을 채택시계열 데이터가 기반일 때, 정말 유용하다❗❗ 강추 ❗❗❗❗'load data inpath' 없이 Hive