profile
Data Engineer

[Trouble Shooting] Pyspark ImportError: No module named xxx & ModuleNotFoundError

1. 문제 발단 배치 정합성 검증 로직을 적용하고 해당 로그를 저장하기 위해 psycopg2 모듈을 사용할 때 일어났던 일이다. Pyspark 을 동작 시키는데 ImportError: No module named psycopg2 가 발생했다. 2. 문제 로그 3

2023년 9월 21일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 7 (Join)

1. 서론 안녕하세요. 데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며 새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다. Spark의 경우 Spa

2023년 8월 28일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - HBase 2 (Data Model)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.HBase 의 경우 원천에서 실시간 데이터 저장

2023년 8월 27일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - HBase 1 (Overview)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.HBase 의 경우 원천에서 실시간 데이터 저장

2023년 8월 26일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 6 (분산형 공유 변수, Accumulator & Broadcast)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을

2023년 8월 20일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 5 (Partition)

1. 서론 안녕하세요. 데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며 새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다. Spark의 경우 Sp

2023년 8월 15일
·
2개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Oozie

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.반드시 글을 읽어 주실 때 잘 못 말하고 있는

2023년 8월 12일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Apache Shiro 1.12.0 미만 보안 이슈

데이터 플랫폼을 운영하며 이 며칠 전 Apache Shiro 사용에 대한 보안팀 조사가 있었다.Apache Shiro 1.12.0 미만의 보안 이슈로 인하여 해당 라이브러리를 사용하는 시스템에 대한 보안팀 권고 사항이 있어 알게 됐다.Zeppelin 0.10.1 은 현

2023년 8월 10일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 4 (Pull based backpressure)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을

2023년 8월 6일
·
2개의 댓글
·
post-thumbnail

[Trouble Shooting] spark.driver.maxResultSize 관련

생산 장비의 Deep Learning 분석을 적용할 장비를 확대했다. (1 -> 5)Source 는 NIFI 이며 Kafka 에 데이터를 담고 Spark Structured Streaming 으로 SINK 하고 있는 환경이다.이 때 Spark 에서 offset을 com

2023년 7월 28일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 3 (SK(Spark-Kafka) Streaming Code Template)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을

2023년 7월 24일
·
2개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 2 (Streaming)

1. 서론 안녕하세요. 데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며 새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다. Spark의 경우 Spa

2023년 7월 23일
·
0개의 댓글
·

GitLab 구성

참고 : https://docs.gitlab.com/ee/install/requirements.html> \* pg_trgm >= 8.6btree_gist >= 13.1plpgsql >= 11.7https://packages.gitlab.com/git

2023년 7월 2일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Spark 1 (Overview)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을

2023년 6월 30일
·
0개의 댓글
·
post-thumbnail

[Trouble shooting] ParquetDecodingException (Hive 테이블 조회)

정형 데이터 배치를 Sqoop 에서 Spark 으로 전환 후 전체 데이터를 조회 했을 때 아무 문제 없이 조회가 가능했다.하지만 Spark으로 전환 시점 부터 데이터 조회 시 에러 로그를 보여주며 조회가 되지 않았다.예를 들어 아래와 같이 전체 조회 시 문제가 없으나아

2023년 6월 29일
·
0개의 댓글
·

[Scala 정리] 기본

프로그래밍 스칼라 책의 내용을 정리하고 있습니다.세미콜론은 예제를 구분하는 구분자며, 스칼라는 이를 추론한다. 스칼라는 한 줄의 끝에서 식을 다음 줄로 계속 이어가야 한다고 추론하지 않는 경우, 줄 끝을 식의 끝으로 취급한다.스칼라에서는 변수가 불변(읽기 전용)인지 아

2023년 6월 26일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Hive 3 (구성)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Hadoop의 경우 하둡 완벽 가이드 책을 많이

2023년 6월 21일
·
0개의 댓글
·
post-thumbnail

[데이터 플랫폼 운영 / 개발] - Hive 2 (Tez)

안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Hadoop의 경우 하둡 완벽 가이드 책을 많이

2023년 6월 11일
·
0개의 댓글
·
post-thumbnail

[Trouble Shooting] Zeppelin 구동 시 Lucene 에러 해결

서버실의 전기 공사 때문에 S/W 를 내려달라는 요청을 수행했다.Hadoop ECO를 전부 내리고 공사를 마무리 한 후 다시금 올리는 상황에서 관리 툴을 활용하여 서비스를 All start 하는 도중 어떤 이유인지는 모르겠지만 도중에 멈췄다. 그래서 다시 All sto

2023년 6월 7일
·
0개의 댓글
·

Kafka-connect 예제

카프카 커넥트를 등록하기 위한 예제를 작성한다.

2023년 6월 7일
·
0개의 댓글
·