Hadoop Cluster 완전분산모드 기동

pnpy6elp·2022년 10월 19일

Distributed System

목록 보기

1/4

Hadoop 환경에서 데이터 분석을 하다보면 노드가 꺼질 때가 많다... 진짜 몇백번은 껐다켰다 한 것 같음😥😥 Spark 처음 접했을 때 모델 돌리다가 갑자기 안돼서 당황했었는데... 처음엔 호환성 문제인 줄 알았는데 알고 보니 네임 노드가 꺼져서 그런 거였다. 암튼 매번 입력해서 껐다켰다 하기 귀찮아서 정리 해놨다. 디렉토리로 이동하는 과정도 생략하려고 경로까지 다 명시해놨다. 경로는 내가 사용하고 있는 서버 기준이므로 자신의 환경에 맞춰 바꿔야 한다.

📌 Cluster 구성

현재 할당받은 서버에 Docker container를 세 개 띄워서 구성해놓은 cluster 환경이다.
하면서 느낀 거지만, Spark를 돌릴 때는 컨테이너보다 실제 서버 세 개를 연동해서 하는 게 더 좋을 것 같다. 아무래도 지금은 하나의 서버에서 돌리다보니 Out of memory error를 만날 때가 정말 많다...ㅎ

kafka1 : namenode(active) , datanode, journalNode, ResourceManager, Nodemanager
kafka2 : namenode(standby) ,datanode, journalNode, Nodemanager
kafka3 : datanode, journalNode, Nodemanager

📌 하둡 클러스터 중지

kakfa1

/usr/lib/hadoop-2.7.3/sbin/mr-jobhistory-daemon.sh stop historyserver
/usr/lib/hadoop-2.7.3/sbin/stop-yarn.sh

kafka2

/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh stop zkfc
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh stop namenode

kafka1

/usr/lib/hadoop-2.7.3/sbin/hadoop-daemons.sh stop datanode
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh stop zkfc
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh stop namenode

kafka1, kafka2, kafka3

/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh stop journalnode
rm -rf /usr/lib/hadoop-2.7.3/data/

📌 하둡 클러스터 실행

Kafka1

rsync -avz /usr/lib/hadoop-2.7.3/etc/hadoop root@kafka2:/usr/lib/hadoop-2.7.3/etc/
rsync -avz /usr/lib/hadoop-2.7.3/etc/hadoop root@kafka3:/usr/lib/hadoop-2.7.3/etc/
/usr/lib/hadoop-2.7.3/bin/hdfs zkfc -formatZK

Kafka1, Kafka2, Kafka3

/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh start journalnode

Kafka1

/usr/lib/hadoop-2.7.3/bin/hdfs namenode -format
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh start namenode
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh start zkfc
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemons.sh start datanode

kafka2

/usr/lib/hadoop-2.7.3/bin/hdfs namenode -bootstrapStandby
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh start namenode
/usr/lib/hadoop-2.7.3/sbin/hadoop-daemon.sh start zkfc

Kafka1

/usr/lib/hadoop-2.7.3/bin/hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/spark
hdfs dfs -mkdir /user/spark/conf
hdfs dfs -put /root/spark/spark-libs.jar /user/spark/conf
hdfs dfs -mkdir /user/hadoop
hdfs dfs -mkdir /user/hadoop/conf
hdfs dfs -put /usr/lib/hadoop-2.7.3/etc/hadoop/hadoop-env.sh /user/hadoop/conf/

Kafka1

/usr/lib/hadoop-2.7.3/sbin/start-yarn.sh
/usr/lib/hadoop-2.7.3/sbin/mr-jobhistory-daemon.sh start historyserver
/usr/lib/hadoop-2.7.3/bin/hdfs haadmin -getServiceState nn2
/usr/lib/hadoop-2.7.3/bin/hdfs haadmin -getServiceState nn1
/usr/lib/hadoop-2.7.3/sbin/yarn-daemon.sh start proxyserver

pnpy6elp

Distributed b2ng

다음 포스트

Hadoop Cluster 완전분산모드 기동

Distributed System

📌 Cluster 구성

📌 하둡 클러스터 중지

📌 하둡 클러스터 실행

Tweet classification in SparkNLP with BERT

0개의 댓글