putty
접속
순서대로 실행
su hadoop
start_dfs
start_yarn
start_mr
Spark 실행
nohup pyspark --master yarn --num-executors 3 &
웹사이트에 client:8888
로 접속 (client가 탄력적 ip가 아니라면 ec2에서 퍼블릭 Ipv4 주소 복사후 :8888
해주기
주피터 노트북 켠 후 아래 명령어 입력 ↓
from pyspark.sql import SparkSession
명령어 입력 후 client:4040 접속시 아래 화면 볼 수 있음
실행중인 프로세스 확인해보기
ssh [NodeName] jps
namenode, secondnode, datanode3 확인해보면 아래와 같이 실행되고 있음
스파크 아키텍처(Spark Architecture)
cd ~
에서
wget https://mydatahive.s3.ap-northeast-2.amazonaws.com/mnm_dataset.csv
파일 다운로드
- hdfs dfs 별명 붙이기 (계속 적을 때 간단히 사용하기 위해서)
vim ~/.bashrc
alias hd="hdfs dfs"
약어 입력해주기
source ~/.bashrc
적용
hd -ls /
확인
hd -put mnm_dataset.csv /mydata/
로컬 파일 시스템에서 Hadoop 분산 파일 시스템(HDFS)로 파일을 업로드하기 위해 사용되는 HDFS 명령어
hd -ls /mydata
파일 업로드 확인
- from pyspark.sql import SparkSession 스파크세션 실행
- mnm_df = spark \
.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", 'true') \
.load("/mydata/mnm_dataset.csv")
read format - csv 형식의 파일 불러오기 / option - 첫줄이 헤더, 스키마는 스파크가 알아서 설정 / load 뒤에는 경로
Spark의 특징 지연연산/액션
mnm_df.show(n=5)
액션 명령을 내려야 결과 표시mnm_df에서 각 주의 색상별 합계를 계산한 다음, 합계를 기준으로 오름차순 정렬
mnm_df에서 캘리포니아(CA) 주의 색상별 합계를 계산한 다음, 합계를 기준으로 오름차순 정렬
putty client cd ~
에서
wget https://mydatahive.s3.ap-northeast-2.amazonaws.com/fakefriends.csv
예제 파일 받기
하둡 디렉토리에 업로드 시키기
hd -put fakefriends.csv /mydata/
파일 불러오기
첫줄이 헤더는 아니고, 스키마는 알아서
열이름 바꾸기
selectExpr
age별 count 평균
df_result로 변수 저장후 result.csv파일로 저장
namenode:50070 파일디렉토리에서 파일 확인
hd -cat /mydata/result.csv/*
터미널에서 확인하기