profile
열심히 살자

Kafka metric monitoring 2

"broker01" 서버로 접속한 후, apache kafka 실행apache kafka 실행 (zookeeper, broker) : jmx port 적용"kafka-client" 서버로 접속한 후, logstash(producer)와 logstash(consumer)

2022년 5월 6일
·
0개의 댓글
·
post-thumbnail

Kafka metric monitoring 1

이번 포스팅은 kafka를 통해 producer와 consumer가 데이터를 주고 받는 과정에서 kafka에서 발생하는 메트릭에 대해 모니텅 하고자 한다. 필자는 총 3대의 서버를 사용했으며, 각각의 역할은 kafka-client, broker, monitoring이다

2022년 5월 6일
·
0개의 댓글
·
post-thumbnail

Spark cluster

하둡 클러스터링이 완료됬다는 전제하에 진행한다.https://velog.io/@kidae92/Hadoop-Cluster ~/.bashrc환경변수 적용$SPARK_HOME/conf/slaves$SPARK_HOME/conf에 가보면 slaves를 포함한 모든 파일

2022년 4월 28일
·
0개의 댓글
·
post-thumbnail

Hadoop Cluster

5개의 컴퓨터를 사용해서 Hadoop 클러스터를 해봤다. 1\. Hadoop (3.3.1)2\. Java3\. 환경변수~/.bashrc환경변수 적용4\. hosts 설정/etc/hosts 5\. ssh 접속 설정모든 서버의 ~/.ssh/id_rsa 내용을 다 합쳐서 각

2022년 4월 27일
·
0개의 댓글
·
post-thumbnail

Apache ambari 사용해보기(Virtualbox)

Oracle VM VirtualBox가 깔려있다는 전재하에 아래 주소로 들어간다.https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html1\. Virtualbox 선택 후 다음 !2\. 이런 화면이 나오

2022년 4월 21일
·
0개의 댓글
·
post-thumbnail

kubernetes 3 (kubectl 명령어, 띄워보기 )

wordpress-mysql.ymlminikube ip 명령어로 얻은 주소로 접속, 포트확인Docker driver를 사용중이라면 minikube service wordpress 명령어를 통해 확인 가능확인 후 리소스 제거

2022년 4월 21일
·
0개의 댓글
·
post-thumbnail

kubernetes 2 (설치)

CentOS8에서 실습을 해봤다.curl -LO "https://storage.googleapis.com/kubernetes-release/release/$(curl -s https://storage.googleapis.com/kubernetes-re

2022년 4월 20일
·
0개의 댓글
·
post-thumbnail

kubernetes 1 (기초 개념)

쿠버네티스를 작년 초에 살짝 건드려보기만 한 정도라, 다시 리마인드겸 복습차 블로그를 작성하게 되었다. 추후 spark + kubernetes에 대해 지속적으로 공부해 나갈 예정이다.모든 상태와 데이터를 저장분산 시스템으로 구성하여 안정성을 높임 (고가용성)가볍고 빠르

2022년 4월 20일
·
0개의 댓글
·
post-thumbnail

Apache Kafka 주요 요소4(Replication)

Broker 에 장애가 발생하면, 장애가 발생한 Broker의 Parition들은 모두 사용할 수 없게 되는 문제가 발생Producer가 Write하는 LOG-END-OFFSET과 Consumer Group의 Consumer가 Read하고 처리한 후에 Commit한 C

2022년 4월 6일
·
0개의 댓글
·
post-thumbnail

[논문리뷰]스파크를 이용한 머신러닝의 분산 처리 성능 요인(2021)

아파치 스파크를 이용하여 머신러닝을 분산 처리할 때의 성능 요인을 분석하고 효율적인 분산 처리를 위한 실행 환경을 제시. 고려해야 하는 성능 요인으로 🟠 클러스터의 성능, 🟢 데이터의 규모, 🔵스파크 엔진의 속성으로 구분. 그리고 하둡 클러스터에서 동작하는 스파

2022년 3월 29일
·
0개의 댓글
·
post-thumbnail

sbt assembly

sbt를 처음 들어봤는데, Simple Build Tool의 약자라고한다. Java에서 Maven처럼 프로덱트를 세팅해주고 빌드 및 실행하는 역할을 한다고 한다.https://www.scala-sbt.org/ 여기서 그냥 깔기만 하면 된다. 윈도우에서 테스트

2022년 3월 28일
·
0개의 댓글
·
post-thumbnail

[논문리뷰]Efficient Large Scale NLP Feature Engineering with Apache Spark(2022)

다른 곳에서 자주 언급되는 여러 정보는 제외하고 논문에서 주장하는 바만 정리해서 적어봤음.Wikipedia의 corpus(자연언어 연구를 위해 특정한 목적을 가지고 언어의 표본을 추출한 집합)의 텍스트 features를 추출하기 위한 Apache Spark의 SQL A

2022년 3월 28일
·
0개의 댓글
·
post-thumbnail

Apache Kafka 주요 요소3

메시지를 Topic의 어떤 Partition으로 보낼지 결정한다전제 조건은 Key가 null이 아니어야 한다

2022년 3월 21일
·
0개의 댓글
·
post-thumbnail

Zeppelin & Spark로 데이터 분석하기1

https://velog.io/@kidae92/%EB%8F%84%EC%BB%A4%EB%A1%9C-Spark-Zepplein-%EC%84%B8%ED%8C%85%ED%95%98%EA%B8%B0 에서는 Zeppelin과 spark를 도커로 띄워보았다.원래는 아래 그

2022년 3월 15일
·
0개의 댓글
·
post-thumbnail

Apache Kafka 주요 요소2(Zookeeper, Broker)

Kafka Broker는 Partition에 대한 Read 및 Write를 관리하는 소프트웨어Kafka Server라고 부르기도 하며, Topic내의 Partition들을 분산, 유지 및 관리각각의 Broker들은 ID로 식별됨 (단 ID는 숫자)Topic의 일부 Pa

2022년 3월 10일
·
0개의 댓글
·
post-thumbnail

Apache Kafka 주요 요소1(Producer, Consumer, Topic, Partition, Segment)

1\. Topic, Producer, ComsumerProducer: 메시지를 생산해서 Kaffa의 Topic으로 메시지를 보내는 애플리케이션Consumer: Topic의 메시지를 가져와서 소비하는 애플리케이션Consumer group: Topic의 메시지를 사용하기

2022년 3월 2일
·
0개의 댓글
·

도커로 Spark-Zepplein 세팅하기

AWS로 Spark 공부를 진행하다 보니 비용이 만만치 않아서 도커를 통해 세팅 후 공부를 진행하기로 했다. 1. docker-compose up https://github.com/big-data-europe/docker-spark 를 참고하여 docker-compo

2022년 2월 17일
·
0개의 댓글
·
post-thumbnail

Spark ML 구현 로직 정리

Scikit Learn과 Spark ML Estimator의 차이가 있어서 공부할 겸 정리해 보았다.Scikit Learn Estimator 객체 자체가 학습된 모델을 가지고, Spark ML Estimator 별도의 Model 객체 자체가 학습된 모델을 가지는 차이가

2022년 1월 25일
·
0개의 댓글
·
post-thumbnail

2) 쿼리 실행 과정

1\. Query casheSQL 실행 결과를 메모리에 캐싱하는 역할동일 SQL 실행시 이전 결과를 즉히 반환테이블 데이터가 변경되면 캐싱된 데이터 삭제가 필요함 (퀴리 캐시에 접근하는 쓰레드에 Lock이 걸림 -> 동시 처리 기능 저하)MySQL 8.0부터는 완전히

2022년 1월 7일
·
0개의 댓글
·
post-thumbnail

1) MySQL 아키텍처

MySQL 아키텍처는 크게 4가지로 구분된다. 1) MySQL 접속 클라이언트 - MySQL의 대부분의 프로그래밍 언어 대해 접속 API를 제공한다. 그뿐만 아니라 Shell에서도 Shell Script를 통해 접속이 가능하다. 2) MySQL 엔진 - 클라이언트

2021년 12월 28일
·
0개의 댓글
·