HDFS 파일 입/출력 MapReduce 실습

코코볼·2023년 6월 21일
0

네트워크 보안

목록 보기
31/35

이제 HDFS(Hadoop Distributed File System)를 사용해서 로컬 호스트(DataNode)에서 파일을 Hadoop 클라우드(NameNode)로 올리고, 역으로 Hadoop 클라우드에 있는 데이터를 로컬 호스트로 옮기는 작업을 해본다.
이어서 HDFS가 데이터를 처리하는 Mapping과 Reducing을 WordCount를 통해서 실습해보자.

Hadoop 마스터인 NameNode는 데이터를 <key:value>(json 포맷 : Python의 Dictionary, MongoDB, XML, 프론트엔드에서의 웹 Expression, ...등에서의 데이터 저장방식)로 저장하고 있다가, 클라우드의 여러 슬레이브 DataNode에 분산 저장할 때에는 데이터를 Key와 value를 분리하는 Mapping 과정을 수행 한 뒤> 메모리에 올리는 Reducing 과정을 수행해서 데이터를 새롭게 정렬해둔다.
Hadoop 마스터 NameNode는 Hadoop 슬레이브 DataNode가 실제 저장하고 있는 데이터의 key와 value만 가지고 있으면서 슬레이브 DataNode를 관리한다. Hadhoop 마스터 NameNode는 value만 가지고 있고 슬레이브인 DataNode들을 관리한다.

DataNoce들의 NameNode의 JobTracker를 통해서 작업을 할당 받은 뒤 주어진 작업을 수행하고, NameNode는 슬레이브 DataNode들의 TaskTracker로 작업 완성 여부 등을 체크해서 작업에 문제가 있으면 처리해준다.

0개의 댓글