# spark

180개의 포스트
post-thumbnail

[Spark] .mp4 파일 이미지 파일로 변환(OpenCV)

개요 S3 -> Kafka -> Spark S3로부터 mp4 파일을 다운로드 받는 코드 & Kafka-python API를 사용하여 Python Consumer 개발 예정 Install 코드 Spark(Python) 결과 이미지를 한프레임마다 나누어서 저장됨 동영

약 15시간 전
·
0개의 댓글
post-thumbnail

[Kafka] 하나의 토픽의 여러 Consumer 설정

Django -> S3 -> KafkaKafka에 메세지 큐(MQ) Subcribe하여 broker로부터 데이터를 가져옴Kafka-python API를 사용하여 Python Consumer 개발 예정Spark를 사용한 이유는 병렬 분산처리를 하여 빠르고, 효율적으로 사

약 19시간 전
·
0개의 댓글
post-thumbnail

[Kafka] Consumer(Kafka-Spark)

S3 -> Kafka -> SparkKafka에 메세지 큐(MQ) Subcribe하여 broker로부터 데이터를 가져옴Kafka-python API를 사용하여 Python Consumer 개발 예정Consumer(Python)ConsumerWalker

약 20시간 전
·
0개의 댓글
post-thumbnail

[Django] Log Spark로 전달

개요 Django -> Spark -> Zeplin Web Service를 사용하는 클라이언트의 Log를 처리할 예정 배치처리하여 hdfs에 저장해 Troubleshooting Deadline(2022.04.01)이 별로 남지 않았음 해결방안 시간이 별로 없어 지금은 Kafka로 처리를 하고 나중에 log처리 방법을 강구 차후에 장고 Logging을 사...

4일 전
·
0개의 댓글

[DataEngineering] Spark

Spark

2022년 6월 16일
·
0개의 댓글

Spark - HDFS 외부 접근 시 hostname으로 통신

dfs.client.use.datanode.hostname

2022년 6월 14일
·
0개의 댓글

SparkSession vs SparkContext vs SQLContext

Spark 기본 아키텍처 및 용어 Spark 애플리케이션은 클러스터의 드라이버 프로그램과 익스큐터 그룹으로 구성됩니다. Driver는 Spark 애플리케이션의 기본 프로그램을 실행하고 작업 실행을 조정하는 SparkContext를 생성하는 프로세스입니다. executo

2022년 6월 1일
·
0개의 댓글

Spark sql vs Hivecontext

(둘이 명확하게 다르구나! 하고 느낀건 hive의 UDF를 spark sql에서 호출하지 못했을때 였나? 너무 당연한 결과지만...ㅎㅎ)sc = pyspark.SparkContext(conf=conf).getOrCreate()sqlContext = HiveContext

2022년 6월 1일
·
0개의 댓글

[Spark] 날짜 다루기 (date, timestamp)

to_date, to_timestamp, 포매팅, 날짜 범위 지정

2022년 5월 23일
·
0개의 댓글
post-thumbnail

udemy Hadoop - Spark(2)

이전 시간에 Spark에 대해서 알아보았고, Spark의 데이터 구조로 RDD, Dataframe, Dataset이 있다는 것을 배웠다. 각각은 어떤 형태로 되어 있으며 어떻게 조작하는 것일까?RDD의 의미 Resillient Distributed Data를 해석하자면

2022년 5월 21일
·
0개의 댓글

udemy Hadoop - Spark(1)

java scala 파이썬 프로그래밍 언어 이용 스크립트 작성 유연성 제공 복잡 데이터 조작 변형 분석. pig 기술 다른 점은 스파크 위에 또다른 생태계 존재하여 머신 러닝 데이터 마이닝 그래프 분석 데이터 스트리밍 복잡한 일 할 수 잇음.범용 클러스터 작업 분배해

2022년 5월 18일
·
0개의 댓글

[Spark] RDB 데이터 읽기/쓰기

https://stackoverflow.com/questions/57509625/how-to-create-table-in-mysql-database-using-apache-spark 검증 필요.

2022년 5월 10일
·
0개의 댓글

[Spark] MariaDB Connector syntax error 해결

※ Mysql Connector License 주의 https://stackoverflow.com/q/41518078https://mariadb.com/kb/en/sql-mode/

2022년 5월 2일
·
0개의 댓글

Spark 성능 튜닝

설계방안 Scala vs Java vs Python vs R Spark의 구조적 API는 속도와 안정성 측면에서 여러 언어를 일관성 있게 다룰 수 있다. 때문에 개발자에게 익숙한 언어나 상황에 따라 가장 적합한 언어를 사용하면 된다. 하지만 구조적 API로 처리할 수

2022년 5월 1일
·
0개의 댓글

Spark Join Strategy

Sort Merge Join은 먼저 동일한 워커 노드로 데이터를 shuffling한 다음 join key를 기반으로 데이터를 정렬 후 데이터를 병합하는 방식이다.spark 2.3 부터 기본 join strategy로 사용된다.join key가 정렬이 가능해야 한다.Sh

2022년 4월 30일
·
0개의 댓글
post-thumbnail

[spark] - 설치

다운로드 페이지(https://www.anaconda.com/products/distribution(pycharm을 사용해도 상관 없습니다.)다운로드 페이지로 이동하여 다운로드를 받아준다. jdk8 or jdk 11을 받아주세요!!다운을 받은 후 설치를 할 때

2022년 4월 28일
·
0개의 댓글
post-thumbnail

Spark cluster

하둡 클러스터링이 완료됬다는 전제하에 진행한다.https://velog.io/@kidae92/Hadoop-Cluster ~/.bashrc환경변수 적용$SPARK_HOME/conf/slaves$SPARK_HOME/conf에 가보면 slaves를 포함한 모든 파일

2022년 4월 28일
·
0개의 댓글
post-thumbnail

Spark Join Strategy

1\. Broadcast Join 모든 executor의 메모리에 복사하여 shuffle 없이 join하는 방식모든 executor와 driver의 memory에 충분한 공간이 있어야함.일반적으로 사이즈가 작은 master성 테이블(dimemsion 테이블)에 적용하나

2022년 4월 24일
·
0개의 댓글

[Spark] spark-shell 사용시 jar 의존성 추가

spark-shell 을 통해 간단한 테스트 진행시, external jar 파일들을 의존성에 추가한다.

2022년 4월 20일
·
0개의 댓글
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글