# spark

kafka 실습
spark_yarn interpreter 수정spark.jars : /skybluelee/spark3/mysql-connector-java-5.1.49.jarspark.jars.packages : org.apache.bahir:spark-streaming-twitter
kafka 설정
kafka에는 master, slave 개념이 없음kafka는 worker에만 설치/skybluelee/kafka_2.12-3.0.0/bin안에 zookeeper에 대한 설정 파일이 존재worker별로 노드를 다르게 설정한다.현 위치: worker-1server1은 m

Spark Overview
지난 면접에서 나 스스로 인정했듯이, 그간 경험했던 프로젝트에서 나는 'Spark를 사용하여 개발'한 게 아니라, 'Spark가 있는 환경에서 Python을 사용하여 개발'을 하고 있었다. 그만큼 내가 개발을 진행했던 환경(Azure 내의 데이터 서비스들)에서는 S
spark redshift
databricks에 관련된 package를 설치한다.spark 폴더에서 실행(폴더 내부에 bin 폴더가 있을 것)이 부분은 필수가 아닐수도 있음redshift 관련 jar 파일을 다운 받고conf에 extraClassPath로 경로를 지정한다.conf에 대한 설정은

spark, s3 connection
본 포스트는 jhleeeme님의 Spark에서 S3 데이터 읽어오기를 참고했습니다. 링크 설치 및 수행 Hadoop-AWS.jar, AWS-java.jar 다운 Hadoop-AWS.jar는 나의 hadoop 버전인 3.3.3을 AWS-java.jar는 최신 버전을 설치

[Spark] Java Json 구조 데이터 다루기
🎈 순서 1. Resource 디렉토리 내에 있는 Json구조 데이터 Read 2. 스키마 선언 3. Json구조 데이터를 DataFrame에 맞게 변환 4. DataLog 클래스로 변환 (Scala라면 Case Class)

spark mysql zeppelin
spark_alone을 default로 실행persist만으로는 동작하지 않으므로 show로 action 실행Apache Storm이 추가됨. 이를 spark에서 확인하면Apache Storm값이 존재하지 않음. 이유는 df라는 캐시된 dataframe에서 값을 읽기

[ Spark ] Learning Spark - chapter 2
github issue중요 용어 정리애플리케이션: API를 써서 스파크 위에서 돌아가는 사용자 프로그램. 드라이버 프로그램과 클러스터의 실행기로 이루어진다.SparkSession: 스파크 코어 기능들을 사용할 수 있는 시작점을 제공, API로 프로그래밍을 할 수 있게
Spark SQL
기존의 RDD를 DF으로 transform이 가능broadcast: shuffle을 하지 않게 만드는 용도Spark shell web UI: http://spark-master-01:4040/ 의 SQL에서 실행 과정 확인 가능Spark SQL은 adaptiv
RDD Map-Side Join
큰 테이블과 상대적으로 작은 테이블간 join할 때 사용Large table <=> Fact tableSmall table <=> Dimension tablescala 결과 창에서 table들이 rdd에 즉 executor에 있음을 알 수 있다. broadc
Broadcast
broadcast 이전의 m과 broadcastVar은 동일repartition은 shuffle 용도로 stage를 다르게 만들기 위함master web UI: http://spark-master-01:8180/ Running Applications (1) -
Whole File-Based RDDs
파일을 executor로 복사하기 위해서는 hdfs 상에 파일을 생성해야 함여기서는 local에서 실행spark는 파일을 line 단위로 읽는데, wholeTextFiles를 사용하면 파일 단위로 파일을 읽는다.print는 줄바꿈 없이, println은 줄바꿈을 하고
RDD Persistence
편의성을 위해 setName 추가persist를 통해 disk로 cache아직까지 action을 실행하지 않은 상태 -> Spark shell web UI: http://spark-master-01:4040/ 의 storage에서는 아무것도 없음action 실
Passing Functions to Spark
master를 따로 설정하지 않으면 local의 모든 core를 사용하도록 master가 설정 됨counter 변수는 driver 내부에 존재scala 문법중 s-str은 python의 f-str과 유사. 전체 str에서 $이후는 변수를 가지고 옴위의 counter는
Pipelining and Stage Skip
1개의 thread에서 동작 local에서 동작하더라도 driver와 executor가 동시에 존재. map 함수는 executor 안에서 동작 map5부터는 shuffle되어 순서가 제대로 나오지 않음 동일한 코드를 반복하면 stage0(map1~map3)의