# spark

308개의 포스트
post-thumbnail

kafka 실습

spark_yarn interpreter 수정spark.jars : /skybluelee/spark3/mysql-connector-java-5.1.49.jarspark.jars.packages : org.apache.bahir:spark-streaming-twitter

2일 전
·
0개의 댓글
·

kafka 설정

kafka에는 master, slave 개념이 없음kafka는 worker에만 설치/skybluelee/kafka_2.12-3.0.0/bin안에 zookeeper에 대한 설정 파일이 존재worker별로 노드를 다르게 설정한다.현 위치: worker-1server1은 m

3일 전
·
0개의 댓글
·
post-thumbnail

Spark Overview

지난 면접에서 나 스스로 인정했듯이, 그간 경험했던 프로젝트에서 나는 'Spark를 사용하여 개발'한 게 아니라, 'Spark가 있는 환경에서 Python을 사용하여 개발'을 하고 있었다. 그만큼 내가 개발을 진행했던 환경(Azure 내의 데이터 서비스들)에서는 S

3일 전
·
0개의 댓글
·

spark redshift

databricks에 관련된 package를 설치한다.spark 폴더에서 실행(폴더 내부에 bin 폴더가 있을 것)이 부분은 필수가 아닐수도 있음redshift 관련 jar 파일을 다운 받고conf에 extraClassPath로 경로를 지정한다.conf에 대한 설정은

2023년 5월 26일
·
0개의 댓글
·
post-thumbnail

spark, s3 connection

본 포스트는 jhleeeme님의 Spark에서 S3 데이터 읽어오기를 참고했습니다. 링크 설치 및 수행 Hadoop-AWS.jar, AWS-java.jar 다운 Hadoop-AWS.jar는 나의 hadoop 버전인 3.3.3을 AWS-java.jar는 최신 버전을 설치

2023년 5월 23일
·
0개의 댓글
·
post-thumbnail

[Spark] Java Json 구조 데이터 다루기

🎈 순서 1. Resource 디렉토리 내에 있는 Json구조 데이터 Read 2. 스키마 선언 3. Json구조 데이터를 DataFrame에 맞게 변환 4. DataLog 클래스로 변환 (Scala라면 Case Class)

2023년 4월 7일
·
0개의 댓글
·
post-thumbnail

spark mysql zeppelin

spark_alone을 default로 실행persist만으로는 동작하지 않으므로 show로 action 실행Apache Storm이 추가됨. 이를 spark에서 확인하면Apache Storm값이 존재하지 않음. 이유는 df라는 캐시된 dataframe에서 값을 읽기

2023년 4월 5일
·
0개의 댓글
·
post-thumbnail

04. Spark Standalone

Apache Spark Standalone Cluster Manager

2023년 3월 29일
·
0개의 댓글
·
post-thumbnail

03. Install Hadoop (HDFS)

Install Hadoop & Configure HDFS

2023년 3월 29일
·
0개의 댓글
·
post-thumbnail

02. Spark History Server

Spark History Server

2023년 3월 29일
·
0개의 댓글
·
post-thumbnail

01. Install Apache Spark on EC2

Install Apache Spark on EC2

2023년 3월 29일
·
0개의 댓글
·
post-thumbnail

00. Apache Spark Lab Setting

Spark Study Lab Setting

2023년 3월 29일
·
0개의 댓글
·
post-thumbnail

[ Spark ] Learning Spark - chapter 2

github issue중요 용어 정리애플리케이션: API를 써서 스파크 위에서 돌아가는 사용자 프로그램. 드라이버 프로그램과 클러스터의 실행기로 이루어진다.SparkSession: 스파크 코어 기능들을 사용할 수 있는 시작점을 제공, API로 프로그래밍을 할 수 있게

2023년 3월 29일
·
0개의 댓글
·

Spark SQL

기존의 RDD를 DF으로 transform이 가능broadcast: shuffle을 하지 않게 만드는 용도Spark shell web UI: http://spark-master-01:4040/ 의 SQL에서 실행 과정 확인 가능Spark SQL은 adaptiv

2023년 3월 27일
·
0개의 댓글
·

RDD Map-Side Join

큰 테이블과 상대적으로 작은 테이블간 join할 때 사용Large table <=> Fact tableSmall table <=> Dimension tablescala 결과 창에서 table들이 rdd에 즉 executor에 있음을 알 수 있다. broadc

2023년 3월 26일
·
0개의 댓글
·

Broadcast

broadcast 이전의 m과 broadcastVar은 동일repartition은 shuffle 용도로 stage를 다르게 만들기 위함master web UI: http://spark-master-01:8180/ Running Applications (1) -

2023년 3월 26일
·
0개의 댓글
·

Whole File-Based RDDs

파일을 executor로 복사하기 위해서는 hdfs 상에 파일을 생성해야 함여기서는 local에서 실행spark는 파일을 line 단위로 읽는데, wholeTextFiles를 사용하면 파일 단위로 파일을 읽는다.print는 줄바꿈 없이, println은 줄바꿈을 하고

2023년 3월 26일
·
0개의 댓글
·

RDD Persistence

편의성을 위해 setName 추가persist를 통해 disk로 cache아직까지 action을 실행하지 않은 상태 -> Spark shell web UI: http://spark-master-01:4040/ 의 storage에서는 아무것도 없음action 실

2023년 3월 26일
·
0개의 댓글
·

Passing Functions to Spark

master를 따로 설정하지 않으면 local의 모든 core를 사용하도록 master가 설정 됨counter 변수는 driver 내부에 존재scala 문법중 s-str은 python의 f-str과 유사. 전체 str에서 $이후는 변수를 가지고 옴위의 counter는

2023년 3월 25일
·
0개의 댓글
·

Pipelining and Stage Skip

1개의 thread에서 동작 local에서 동작하더라도 driver와 executor가 동시에 존재. map 함수는 executor 안에서 동작 map5부터는 shuffle되어 순서가 제대로 나오지 않음 동일한 코드를 반복하면 stage0(map1~map3)의

2023년 3월 24일
·
0개의 댓글
·