# zeppelin

21개의 포스트
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Apache Shiro 1.12.0 미만 보안 이슈

1. 문제 발단 데이터 플랫폼을 운영하며 이 며칠 전 Apache Shiro 사용에 대한 보안팀 조사가 있었다. Apache Shiro 1.12.0 미만의 보안 이슈로 인하여 해당 라이브러리를 사용하는 시스템에 대한 보안팀 권고 사항이 있어 알게 됐다. 2. Zeppelin Zeppelin 0.10.1 은 현재 Apache Shiro 1.10.0 버전을 사용중이다. Github Zeppelin Repository - pom.xml 3. 보안 이슈 관련 링크 https://lists.apache.

2023년 8월 10일
·
0개의 댓글
·
post-thumbnail

[Trouble Shooting] Zeppelin 구동 시 Lucene 에러 해결

1. 문제 발단 서버실의 전기 공사 때문에 S/W 를 내려달라는 요청을 수행했다. Hadoop ECO를 전부 내리고 공사를 마무리 한 후 다시금 올리는 상황에서 관리 툴을 활용하여 서비스를 All start 하는 도중 어떤 이유인지는 모르겠지만 도중에 멈췄다. 그래서 다시 All stop 을 하고 올리니 Zeppelin Web UI가 떴지만 LDAP 연동을 계속 실패했다. 무슨 이유인지는 모르지만 평소에 Zeppelin config 설정을 하기 위해 자주 내리고 올렸었고 LDAP 연동에는 문제가 없었으니 config 문제가 아님을 직감했다. 2. 문제 로그 1. 서버를 올렸을 때 나온 로그 2. 로그인을 시도 했을

2023년 6월 7일
·
0개의 댓글
·
post-thumbnail

kafka 실습

설정 spark interpreter 수정 spark_yarn interpreter 수정 spark.jars : /skybluelee/spark3/mysql-connector-java-5.1.49.jar spark.jars.packages : org.apache.bahir:spark-streaming-twitter2.12:2.4.0,org.apache.spark:spark-streaming-kafka-0-102.12:3.2.1,org.apache.spark:spark-sql-kafka-0-10_2.12:3.2.1,com.google.code.gson:gson:2.8.5 spark.jars는 path를 지정하는 용도이고, spark.jars.pacakges는 트위터 정보 수집에 필요한 자료이다. maven project를 넣음 java bin 경로 추가 zookeeper, kafka 실행 모든 worker에서(spark 계정(권한이 있는)에서 실행 )

2023년 6월 2일
·
0개의 댓글
·

kafka 설정

kafka 설치 kafka에는 master, slave 개념이 없음 kafka는 worker에만 설치 zookeeper 설정 안에 zookeeper에 대한 설정 파일이 존재 worker별로 노드를 다르게 설정한다. 현 위치: worker-1 server1은 myid가 1인 worker-1을 의미, worker 2, 3도 myid를 변경할 것 kafka 설정 다른 worker 설정 scp -r: 내부 파일 까지 전부 복사 worker-2 worker-3 zookeeper 실행 모든 worker에서 실행해야 함 zookeeper-server-start.sh를 실행, zookeeper.properties를 참조, & 백그라운드 환경에서 실행 kafka 실행 모든 worker에서 실행해야 함 topic 생성 tweet이란 topic을 3개의 partition으로 나누어 생성하고, 문제 해결을 위해 3 copy topic list

2023년 6월 1일
·
0개의 댓글
·
post-thumbnail

spark mysql zeppelin

spark_alone을 default로 실행 mysql setting, db pos ubuntu zeppelin Read Data From MySQL 1 dataframe cache persist만으로는 동작하지 않으므로 show로 action 실행 Insert Data Apache Storm이 추가됨. 이를 spark에서 확인하면 Apache Storm값이 존재하지 않음. 이유는 df라는 캐시된 dataframe에서 값을 읽기 때문 원본 데이터를 변경하더라도 캐시된 데이터에 영향을 주지 못함 캐시를 해제하면 df는 원본 데이터에서 갖고 오므로 Apache Storm이 추가된 것을 확인할 수 있음. 2 temp view 생성

2023년 4월 5일
·
0개의 댓글
·
post-thumbnail

zeppelin airline 데이터 탐색

setting Temp View 등록 df = spark.read.csv("/skybluelee/dat/airlineontime") sql에서 사용하기 위해 tempview로 등록 Catalog 확인 Cache 처리(Persist 처리) df이 자주 사용될 예정이므로 캐시처리함 action을 위한 count Cache 해제(Unpersist) 데이터 탐색.... [Q-01] 항공사 목록? [Q-02] 항공사 개수? [Q-03] 항공사별 비행 횟수? [Q-04] 항공사별 계획된 비행 횟수 vs. 실제 비행 횟수 vs. 취소된 비행 횟수? + 취소율(%)? 비행 취소 attribute 확인 Cancelled의 type이 int임 -> NA값은 없을 것으로 추정 취소된 값을 파악하기 위해 Cancelled와 연관있는 attribute을 선택해 확인 ![](https://velog.velcdn

2023년 4월 3일
·
0개의 댓글
·
post-thumbnail

spark_sql_zeppelin

zeppelin 구동 .zpln import Import note -> Select JSON File/IPYNB File EDA spark_yarn을 default로 설정 yarn cluster 실행 원본 파일: 6.4Gb three copy: 19.3Gb RemoteInterpreterServer: zeppelin에서 실행중인 shell ResourceManager: yarn NameNode, SecondaryNameNode: hdfs 경로 notebook -> aws -> ZeppelinServer(jps) -> %sh(shell) check -> RemoteInterpreterServer -> ZeppelinServer -> aws -> notebook

2023년 4월 3일
·
0개의 댓글
·
post-thumbnail

zeppelin 기본 실습

%spark ubuntu에서 jps로 확인하면 SparkSubmit이 작동중인 것 확인 가능 기본적으로 scala 사용 python으로 사용하기 위해서는 %pyspark를 사용함 %spark_stand jps에서 SparkSubmit이 추가로 동작하는 것을 확인할 수 있음 spark master web ui: http://spark-master-01:8180/ 에서 Running Applications (1) -> Name -> Zeppelin_STAND 확인 가능 Running Applications (1) -> Application ID에서 5개의 executor 확인 에서 worker 01~03을 확인하면 총 executor가 5개임을 확인할 수 있음 마찬가지로 pysp

2023년 4월 3일
·
0개의 댓글
·
post-thumbnail

zeppelin 설정

상단의 notebook -> create new notebook으로 실행 우측의 설정(Interpreter binding)을 클릭해 기본 설정 확인 가능 제일 위의 값이 default이며 순서를 변경하여 default를 다르게 설정할 수 있음 %~ 를 사용해 spark, sparkstand, sparkyarn 변경 가능

2023년 4월 2일
·
0개의 댓글
·

Spark

Jupyter remote access 외부access를 위한 edit config파일수정 ~/.jupyter/jupyternotebookconfig.py c.NotebookApp.ip = '0.0.0.0' c.NotebookApp.allow_origin='*' 0. 작업디렉토리로 이동 1. password설정 2. 포트설정 3. tunneling ssh (local:8899remote 8899) 4. localhost:8899 접속후 1번 password 입력 Zeppelin start mysql log를 계속출력시키기

2023년 4월 1일
·
0개의 댓글
·
post-thumbnail

Maria DB, Hadoop, Spark, Zeppelin 설치

EC2 Maria DB 설치 Ubuntu 20.04LTS Docker는 설치되어 있음 maria-db 설치 ` docker run --name maria-db -d -p 3306:3306 --restart=always -e MYSQLROOTPASSWORD=[] mariadb --lowercasetable_names=1 ` DB 및 계정 생성 DB 접속 docker exec -it maria-db mysql -u root -p create database IF NOT EXISTS returnz_develop; Hadoop, Spark, Zeppelin Docker로 구성 docker-compose 다운로드 > https://github.com/ManduTheCat/docker-hadoop-spark git clone한 후 docker-compose up -d 실행 spark-zepp

2023년 3월 14일
·
1개의 댓글
·
post-thumbnail

Spark로 TLC Taxi Record 데이터 분석하기

데이터셋 소개 TLC(The New York City Taxi and Limousine Commission)는 New York City's medallion (Yellow) Taxis, Street hail livery (Green) Taxis, FHVs(For-Hire Vehicles, 임대차량), Commuter Vans, Paratransit Vehicles의 면허와 규제를 담당하는 기관이다. 쉽게 말해 뉴욕의 택시와 모빌리티를 관리하는 기관이다. TLC는 2009년부터 뉴욕의 Trip Record 데이터를 취합했다. 이 데이터는 매년 수십 GB에 달하는 방대한 데이터이며, 무료로 제공한다. 포함된 정보는 승하차 시간/위치, 소요시간, 승객 수, 요금 등의 정보이다. 데이터셋은 아래 사이트에서 찾아볼 수 있다. TLC Trip Record Data https://www1.nyc.gov/site/tlc/about/tlc-trip-r

2022년 9월 16일
·
0개의 댓글
·
post-thumbnail

Zeppelin - Spark 연동하기

Spark Interpreter 설정 Zeppelin Web UI에서 우측 상단의 [anonymous] 옆 드롭다운을 눌러 [Interpreter]로 이동한다. spark를 검색하면 Spark Interpreter 설정을 할 수 있다. spark.master가 현재 Local Mode로 되어 있는데 이 값을 변경하여 Cluster Manager를 선택할 수 있다. 우측 상단의 [edit]을 눌러 spark.master에 Spark Standalone Master URL을 입력한 후 아래로 스크롤하여 [Save]한다.

2022년 9월 14일
·
0개의 댓글
·
post-thumbnail

WSL2 환경에서 Zeppelin Website가 안 뜰 때

문제 Zeppelin을 설치 후 Zeppelin을 정상적으로 실행했다. 하지만 Zeppelin Website가 동작하지 않는다. (default port는 8080이지만 필자는 8050을 쓰고 있음) 원인 Windows(Host OS)와 WSL2(Guest OS)는 다른 Host이기 때문이다. WSL2 환경의 문제 때문인데, WSL1은 Windows에서 Linux Shell을 열어주지만, WSL2는 Hyper-V 위에서 Linux Shell을 실행하고 가상 IP를 할당한다. ipconfig로 IP를 확인해보

2022년 9월 14일
·
0개의 댓글
·
post-thumbnail

Zeppelin 설치 및 실행하기

Zeppelin 다운로드 wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz tar -xzf zeppelin-0.10.1-bin-all.tgz Zeppelin 실행 ./zeppelin-daemon.sh start Zeppelin 포트 설정

2022년 9월 14일
·
0개의 댓글
·
post-thumbnail

Hadoop-ecosystem - Docker container로 구축해보기 (2)

프로젝트 github : https://github.com/cattmerry/docker-hadoop Container로 띄울 서비스들과 각 Container를 띄운 이미지, mount한 volume을 시각적으로 정리했다. 전 포스팅에서 build한 이미지를 기반으로 필요한 서비스들을 docker container로 띄운다. volume 공유가 필요할 경우 docker 엔진에서 volume을 생성하고 필요한 container를 mount한다. 모든 container에는 Hadoop이 설치되어있고, Spark는 YARN 위에서 실행하기때문에 Spark를 실제로 실행할 container에만 설치되어있으면 된다. (Hadoop의 datanode에는 설치할 필요 없음) 모든 이미지에는 실행할 스크립트 파일을 추가

2022년 9월 5일
·
1개의 댓글
·

[AWS] EC2서버에 개발 환경 구축 및 구성요소

AWS-EC2 서버에 Ubuntu를 기반으로 하여 개발환경을 설정 중이다. Eviroment in Ubuntu 1. Java > Hadoop,Yarn,Spark,Zookeeper와 같은 시스템은 JVM에서 동작하기에 java설치는 필수적이다. 2. Hadoop > Big Data를 다루기 위해 사용되는 분산 파일 시스템의 병렬처리 프레임워크에서 실행되는 플랫폼으로 수백 TERA의 용량을 다루기에 용이하고 주로 기업이나 개인 서버로 많이 사용된다. (추후 기업에서 데이터를 잘 다루기 위해서는 hadoop을 제대로 이해하고 있어야한다.) 3. MariaDB > Hive를 사용하기 위해선 Database & Table의 스키마 정보, 메타정보를 저장하기 위한 Metastore로 RDB가 필요하기 때문에 이를 구성하기 위하여 MariaDB를 설치한다. ✏️ MetaData: 어떠한 목적을 지고 만들어진 데이터로, 대량의 데이터가 존재 할

2022년 8월 19일
·
0개의 댓글
·
post-thumbnail

Zeppelin & Spark로 데이터 분석하기1

🚩로컬에 S3구축, log 데이터 넣어보기 https://velog.io/@kidae92/%EB%8F%84%EC%BB%A4%EB%A1%9C-Spark-Zepplein-%EC%84%B8%ED%8C%85%ED%95%98%EA%B8%B0 에서는 Zeppelin과 spark를 도커로 띄워보았다. >원래는 아래 그림과 같이 kafka connector를 구축하는 공부를 하고 있었는데, localstack이라는 AWS 환경을 구축할 수 있는 것을 알게 되어서, 공부하는 김에 S3 구축을 진행 해보았다. 아래코드는 원래 공부하던 것이어서 kafka, zookeeper 등 여기서는 안쓰는 코드가 있긴하다.. 👓 아래 코드를 docker-compose를 이용

2022년 3월 15일
·
0개의 댓글
·

도커로 Spark-Zepplein 세팅하기

AWS로 Spark 공부를 진행하다 보니 비용이 만만치 않아서 도커를 통해 세팅 후 공부를 진행하기로 했다. 1. docker-compose up https://github.com/big-data-europe/docker-spark 를 참고하여 docker-compose.yml파일을 만들어, 컨테이너를 띄워보았다. 아래 코드를 실행하여 docker-compose up을 실행한다. 아래와 같이 4개의 컨테이너가 형성된다. 2. 설치 확인 나는 연구실 서버에 도커를 띄워서 127.0.0.1:8080이 아닌 서버의 ip와 지정해준 port를 통해 Spark Master page를 확인할 수 있다. 또한 워커 두개가 떠 있는 것을 볼 수 있다. 마찬가지로 8081과 8082 워커의 UI도 들어가서 확인해 볼 수 있다. ![](https://images.velog.io/images/kidae92/post/acb4395a-ce97-44e0-81a5-7f34c43e4

2022년 2월 17일
·
1개의 댓글
·

Ubuntu 20.04 Apache Spark & Zeppelin 설치하기

Ubuntu 20.04 LTS 환경 설치하기 전엔 항상 입력해주자 Java Install Java PATH Apache Spark Install PATH setting Screenshot from 2022-02-04 04-17-48 Start master server / 8080 포트 확인 http://localhost:8080 접속 Screenshot from 2022-02-04 04-23-58 Start wo

2022년 2월 8일
·
0개의 댓글
·