1. 문제 발단 배치 정합성 검증 로직을 적용하고 해당 로그를 저장하기 위해 psycopg2 모듈을 사용할 때 일어났던 일이다. Pyspark 을 동작 시키는데 ImportError: No module named psycopg2 가 발생했다. 2. 문제 로그 3
1. 서론 안녕하세요. 데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며 새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다. Spark의 경우 Spa
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.HBase 의 경우 원천에서 실시간 데이터 저장
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.HBase 의 경우 원천에서 실시간 데이터 저장
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을
1. 서론 안녕하세요. 데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며 새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다. Spark의 경우 Sp
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.반드시 글을 읽어 주실 때 잘 못 말하고 있는
데이터 플랫폼을 운영하며 이 며칠 전 Apache Shiro 사용에 대한 보안팀 조사가 있었다.Apache Shiro 1.12.0 미만의 보안 이슈로 인하여 해당 라이브러리를 사용하는 시스템에 대한 보안팀 권고 사항이 있어 알게 됐다.Zeppelin 0.10.1 은 현
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을
생산 장비의 Deep Learning 분석을 적용할 장비를 확대했다. (1 -> 5)Source 는 NIFI 이며 Kafka 에 데이터를 담고 Spark Structured Streaming 으로 SINK 하고 있는 환경이다.이 때 Spark 에서 offset을 com
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을
1. 서론 안녕하세요. 데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며 새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다. Spark의 경우 Spa
참고 : https://docs.gitlab.com/ee/install/requirements.html> \* pg_trgm >= 8.6btree_gist >= 13.1plpgsql >= 11.7https://packages.gitlab.com/git
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Spark의 경우 Spark 완벽 가이드 책을
정형 데이터 배치를 Sqoop 에서 Spark 으로 전환 후 전체 데이터를 조회 했을 때 아무 문제 없이 조회가 가능했다.하지만 Spark으로 전환 시점 부터 데이터 조회 시 에러 로그를 보여주며 조회가 되지 않았다.예를 들어 아래와 같이 전체 조회 시 문제가 없으나아
프로그래밍 스칼라 책의 내용을 정리하고 있습니다.세미콜론은 예제를 구분하는 구분자며, 스칼라는 이를 추론한다. 스칼라는 한 줄의 끝에서 식을 다음 줄로 계속 이어가야 한다고 추론하지 않는 경우, 줄 끝을 식의 끝으로 취급한다.스칼라에서는 변수가 불변(읽기 전용)인지 아
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Hadoop의 경우 하둡 완벽 가이드 책을 많이
안녕하세요.데이터 엔지니어링 & 운영 업무를 하는 중 알게 된 지식이나 의문점들을 시리즈 형식으로 계속해서 작성해나가며새로 알게 된 점이나 잘 못 알고 있었던 점을 더욱 기억에 남기기 위해 글을 꾸준히 작성 할려고 합니다.Hadoop의 경우 하둡 완벽 가이드 책을 많이
서버실의 전기 공사 때문에 S/W 를 내려달라는 요청을 수행했다.Hadoop ECO를 전부 내리고 공사를 마무리 한 후 다시금 올리는 상황에서 관리 툴을 활용하여 서비스를 All start 하는 도중 어떤 이유인지는 모르겠지만 도중에 멈췄다. 그래서 다시 All sto