HDFS

kkwang·2022년 7월 14일

하둡 분산 파일시스템

HDFS 블록 : 128MB
HDFS 파일은 블록 크기 보다 작은 데이터 일 경우, 전체 블록 크기를 모두 점유하지 않음
1MB 크기의 파일이면 128MB가 아닌, 1MB만 사용

HDFS 블록이 큰 이유는?
탐색 비용(seek time)을 최소화하기 위해
블록이 크면 seek time을 줄일 수 있고 Data 전송의 시간에 시간을 더 할애할 수 있음
분산 파일시스템에 블록 추상화 개념을 도입하는 이유
1. 파일 하나의 크기가 단일 디스크 용량보다 클 수 있음
  -> 하나의 파일을 구성하는 여러 개의 블록이 다른 디스크에 저장 될 수 있으므로
2. 스토리지의 서브시스템을 단순화
  -> 저장에 필요한 디스크 양만 계산하면 되며, 메타데이터는 블록과 별도로 분리 할 수 있음
3. 내고장성(fault tolerance), 가용성(availability)을 위한 복제(replication)을 구현하기 용이
  -> 블록 손상 및 머신 장애에 대처하기 위해 각 블록은 물리적으로 분리된 다수 머신에 복제 되기 때문
HDFS 역시 fsck 명령어로 블록을 관리

네임노드
- 파일시스템의 네임스페이스 관리
- 파일시스템 트리 및 모든 파일 메타데이터 유지
- Namespace image, Edit log라는 두 종류 파일로 저장
- 파일에 해당하는 블록이 어느 데이터노드에 있는 파악
HDFS 클라이언트
- 네임노드와 데이터노드 사이를 통신/파일시스템 접근
데이터노드
- 네임노드의 요청에 따라 블록 저장/탐색/목록보고
네임노드 장애 복구
- 다수의 파일시스템에 영구적인 상태를 저장(파일 백업)
- 보조 네임노드(Secondary NameNode) 운영
  -> Edit log가 너무 커지지 않도록, 주기적으로 네임스페이스 이미지를 Edit log와 병합하여 새로운 네임스페이스 이미지를 생성 (병합작업에 CPU와 메모리가 필요하므로 별도 머신에서 실행하는 것이 좋음)

Self Study