Hadoop 서버

코코볼·2023년 6월 21일
0

네트워크 보안

목록 보기
33/35

클라우드에서 사용되는 hadoop은 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)을 사용해서 데이터를 빠르게 저장하고 사용하게 해준다. Hadoop과 관련된 여러 부가적인 서비스들을 묶어서 Hadoop EcoSystem이라고 부르고 여기에는 ZooKeeper, Avro, Chukwa, Flume, Pig, Hive, Hbase, Sqoop, impala, 그리고 Woozie 등이 있다.

분산 파일 시스템(DFS)이란 하나의 데이터를 일정한 크기로 분할해서 최대 세 곳에 replicated(복제) 해서 실제 사용자 근처에 데이터를 배치시킴으로써 사용자가 빠르게 데이터를 사용하게 해준다.
Hadoop의 구조는 실제 데이터를 저장하는 Data Node(client:slave)와 이들을 통제하는 Name Node(server: master)로 구성된다. Java 프로그래밍 기반으로 데이터는 <키:값>의 json 포맷으로 저장되는데 MapReduce 과정을 통해서 데이터가 처리된다. map 과정에서는 키를 따로 묶고, reduce 과정에서는 해당 키에 따른 적절한 값으로 매핑해서 묶는 과정이다. map 과정이 끝난 뒤에야 reduce 과정이 실행된다.
=> Hadoop 네트워크에서 모든 통제를 수행하는 NameNode는 Kubernetes와 같은 역할을 하고, 실제 데이터를 저장하는 Data Node는 Docker Image Container와 같은 역할을 한다고 볼 수 있따.
그리고 Hadoop 네트워크의 구조는 사용자 가까이에 데이터 노드를 배치해서 사용자가 편리하게 데이터에 접근하게 해주는 CDN(Contents Delivery Network)과 유사하다.

Ubuntu 18 호스트를 하나 생성해서
Hadoop master 머신으로 만들고
이를 복제해서 Hadoop slave1, 그리고 slave2 머신으로 만들어서
나중에 연동해서 작동되게 하는데
=> 이들 사이는 ssh로 연결되게 한다. 따라서 키를 생성한 두 ㅣ패스워드가 아닌 키로 연결되게 해준다.

0개의 댓글