# spark

176개의 포스트

[DataEngineering] Spark

Spark

2022년 6월 16일
·
0개의 댓글

Spark - HDFS 외부 접근 시 hostname으로 통신

dfs.client.use.datanode.hostname

2022년 6월 14일
·
0개의 댓글

SparkSession vs SparkContext vs SQLContext

Spark 기본 아키텍처 및 용어 Spark 애플리케이션은 클러스터의 드라이버 프로그램과 익스큐터 그룹으로 구성됩니다. Driver는 Spark 애플리케이션의 기본 프로그램을 실행하고 작업 실행을 조정하는 SparkContext를 생성하는 프로세스입니다. executo

2022년 6월 1일
·
0개의 댓글

Spark sql vs Hivecontext

(둘이 명확하게 다르구나! 하고 느낀건 hive의 UDF를 spark sql에서 호출하지 못했을때 였나? 너무 당연한 결과지만...ㅎㅎ)sc = pyspark.SparkContext(conf=conf).getOrCreate()sqlContext = HiveContext

2022년 6월 1일
·
0개의 댓글

[Spark] 날짜 다루기 (date, timestamp)

to_date, to_timestamp, 포매팅, 날짜 범위 지정

2022년 5월 23일
·
0개의 댓글
post-thumbnail

udemy Hadoop - Spark(2)

이전 시간에 Spark에 대해서 알아보았고, Spark의 데이터 구조로 RDD, Dataframe, Dataset이 있다는 것을 배웠다. 각각은 어떤 형태로 되어 있으며 어떻게 조작하는 것일까?RDD의 의미 Resillient Distributed Data를 해석하자면

2022년 5월 21일
·
0개의 댓글

udemy Hadoop - Spark(1)

java scala 파이썬 프로그래밍 언어 이용 스크립트 작성 유연성 제공 복잡 데이터 조작 변형 분석. pig 기술 다른 점은 스파크 위에 또다른 생태계 존재하여 머신 러닝 데이터 마이닝 그래프 분석 데이터 스트리밍 복잡한 일 할 수 잇음.범용 클러스터 작업 분배해

2022년 5월 18일
·
0개의 댓글

[Spark] RDB 데이터 읽기/쓰기

https://stackoverflow.com/questions/57509625/how-to-create-table-in-mysql-database-using-apache-spark 검증 필요.

2022년 5월 10일
·
0개의 댓글

[Spark] MariaDB Connector syntax error 해결

※ Mysql Connector License 주의 https://stackoverflow.com/q/41518078https://mariadb.com/kb/en/sql-mode/

2022년 5월 2일
·
0개의 댓글

Spark 성능 튜닝

설계방안 Scala vs Java vs Python vs R Spark의 구조적 API는 속도와 안정성 측면에서 여러 언어를 일관성 있게 다룰 수 있다. 때문에 개발자에게 익숙한 언어나 상황에 따라 가장 적합한 언어를 사용하면 된다. 하지만 구조적 API로 처리할 수

2022년 5월 1일
·
0개의 댓글

Spark Join Strategy

Sort Merge Join은 먼저 동일한 워커 노드로 데이터를 shuffling한 다음 join key를 기반으로 데이터를 정렬 후 데이터를 병합하는 방식이다.spark 2.3 부터 기본 join strategy로 사용된다.join key가 정렬이 가능해야 한다.Sh

2022년 4월 30일
·
0개의 댓글
post-thumbnail

[spark] - 설치

다운로드 페이지(https://www.anaconda.com/products/distribution(pycharm을 사용해도 상관 없습니다.)다운로드 페이지로 이동하여 다운로드를 받아준다. jdk8 or jdk 11을 받아주세요!!다운을 받은 후 설치를 할 때

2022년 4월 28일
·
0개의 댓글
post-thumbnail

Spark cluster

하둡 클러스터링이 완료됬다는 전제하에 진행한다.https://velog.io/@kidae92/Hadoop-Cluster ~/.bashrc환경변수 적용$SPARK_HOME/conf/slaves$SPARK_HOME/conf에 가보면 slaves를 포함한 모든 파일

2022년 4월 28일
·
0개의 댓글
post-thumbnail

Spark Join Strategy

1\. Broadcast Join 모든 executor의 메모리에 복사하여 shuffle 없이 join하는 방식모든 executor와 driver의 memory에 충분한 공간이 있어야함.일반적으로 사이즈가 작은 master성 테이블(dimemsion 테이블)에 적용하나

2022년 4월 24일
·
0개의 댓글

[Spark] spark-shell 사용시 jar 의존성 추가

spark-shell 을 통해 간단한 테스트 진행시, external jar 파일들을 의존성에 추가한다.

2022년 4월 20일
·
0개의 댓글
post-thumbnail

Spark Basic Operations

Basic unit of calculation for Spark (It's like an API for controling Spark)a read-only, fault-tolerant partitioned collection of recordsLineage: User

2022년 4월 10일
·
0개의 댓글

[Spark]RDD

RDD에 대하여 알지 못한다면 Spark를 안다고 할 수 없다.그러니 이번 기회에 RDD에 대해서 자세히 정리해보자.RDD를 사용하기 이전엔 빅데이터 처리를 위하여 Hadoop의 MapReduce를 주로 사용하였다.MapReduce는 간단하게 Map과 Reduce 함수

2022년 4월 10일
·
0개의 댓글
post-thumbnail

Setting up EC2

SSH into the server Open VS Code Install Remove Development in the marketplace Create a config file press F1 → Configure SSH Hosts → Select the fil

2022년 4월 8일
·
0개의 댓글
post-thumbnail

Distributed Computing

A local process will use the computation resources of a single machine A distributed process has access to the computational resources across a number

2022년 4월 7일
·
0개의 댓글
post-thumbnail

빅데이터와 스파크

Big + data (큰) + 데이터빅데이터를 어떻게 하면 학문적으로 정의 할 수 있을까?스스로 정의 해보자!3V: Volume(규모), Variery(다양성), Velocity(속도)5V: 3v + Veracity(진실성), Value(가치)7V: Validity(정

2022년 4월 5일
·
0개의 댓글