profile
데이터 엔지니어 ing
post-thumbnail

Hadoop 스터디&Mac OS 구축

1. 하둡이란? > Hadoop 이란 빅데이터를 분할하여 저장하고 처리하기 위한 오픈소스 프레임워크. 구조화 데이터가 아닌 비구조화 데이터등을 분산으로 저장 (HDFS) 해서 분산 처리 작업(범용 컴퓨터 여러 대를 클러스터화하고, 클러스터에서 병렬로 동시에 처리하여

2023년 10월 9일
·
0개의 댓글
·
post-thumbnail

[Airflow] dag 스케줄을 요일을 기준으로 분기태우고 싶을 때

ML 학습 파이프라인 스케줄을 짜다보면, 요일 마다 다른 task 를 실행하고 싶을 때(해야 할 때)가 있다. 이 때 Airflow 내장 Operator 를 사용하면 간단하게 구현할 수 있다. BranchDayOfWeekOperator BranchDayOfWeek

2023년 9월 12일
·
0개의 댓글
·
post-thumbnail

Vim 액기스 단축키 🍯

이것만 알아도 linux 로 파일 보는데 문제 없다! 👻

2023년 9월 2일
·
0개의 댓글
·

쿼리집계 실험: group by 집착광공..

오늘도 느끼는 group by cost 의 중요성 a=a

2023년 8월 29일
·
0개의 댓글
·
post-thumbnail

Airflow 시간 개념 정리 ⌚

Airflow 운영 중 헷갈리는 시간 개념을 정리하고자 한다. 헷갈릴 때 마다 참고 할 예정~!

2023년 8월 21일
·
0개의 댓글
·
post-thumbnail

SQL 쿼리 성능 향상 방법 정리

1. SELECT 시 필요한 컬럼만 호출 많은 필드 값을 불러올 수록 DB는 더 많은 로드를 부담한다. 컬럼 중에 불필요한 값을 가진 필드가 있다면 과감히 제외하고, 꼭 필요한 컬럼만 불러오자. 2. 조건 내에 기존 DB 값에 별도의 연산을 걸지 않음 Ineff

2023년 8월 18일
·
0개의 댓글
·
post-thumbnail

자료구조 개요 .. 🐕

데이터를 체계적으로 저장하고, 효율적으로 활용하기 위해 자료구조를 사용신중히 선택한 자료구조는 보다 효율적인 알고리즘을 사용하라 수 있게 한다.실행시간, 메모리 용량 등의 자원을 최소화하여 연산 수행하게끔 한다.대부분의 자료구조는 특정 상황에 놓인 문제를 해결하는 데에

2023년 8월 15일
·
1개의 댓글
·
post-thumbnail

[PySpark 개념 2] Spark Connect

PySpark docs Quickstart Spark Connect 내용 번역 겸 정리를 통해 개념을 확실히 해보자~! (1에 비해 내용이 짧음,,)https://spark.apache.org/docs/latest/api/python/getting_starte

2023년 6월 25일
·
0개의 댓글
·
post-thumbnail

[Airflow] task 가 not yet started 일때 확인 해볼만 한 것

주말을 잘 쉬고 출근한 월요일 아침부터 airflow 배치가 이상함을 발견했다..

2023년 6월 25일
·
0개의 댓글
·
post-thumbnail

FastAPI SyntaxError 본김에 linux python 환경까지 정리.. 한 사연

운영중인 FastAPI 서버의 CRUD API 하나를 업데이트 할 일이 있어, 전날 배포할 코드를 작성하고 아침에 출근하자마자 가벼운 마음으로 배포하려했는데..syntax error 가 났다.

2023년 6월 21일
·
0개의 댓글
·
post-thumbnail

salesforce api 이름 양식 전송 에러

담당하고 있는 서비스의 FastAPI api 중에 세일즈포스 api 호출 로직을 포함하는 것이 있는데, API 호출이 성공하지 않았는데 에러 없이 작업이 완료되는 문제가 있었다.문제가 된 salesforce APIhttps://developer.salesfor

2023년 6월 20일
·
0개의 댓글
·
post-thumbnail

프로그래머스 lv1. 크기가 작은 부분 문자열

프로그래머스 level 1 문제를 풀다가 기초적인 실수를 많이 해서 기록해본다. 같은 실수 반복하지 않고, 문제를 꾸준히 풀어봐야겠다.. 🥶

2023년 6월 18일
·
0개의 댓글
·
post-thumbnail

[Spark SQL] 데이터검수에 필요한 차집합 구하는 쿼리

월별 매장별 고객 수 및 전표건수를 집계하기 위해 매장별 전표 집계의 레코드 수가 매장별 매출 집계 레코드 수보다 많은 경우가 발생했다.예를들어 아래 전표 테이블을 집계한 SALNO_CNT 의 레코드 수는 100 인데,SAL_SUM 의 레코드 수가 97 인 경우다.전표

2023년 6월 5일
·
0개의 댓글
·
post-thumbnail

[Linux] ps : 실행 중인 서비스 관리하기

자주 쓰는 ps 명령어에 대해 정리해보자 🐧 1. ps (process status) ps (Process Status) : 현재 실행중인 프로세스 목록을 보여주는 명령어 구문 linux 에서는 여러 개의 프로세스가 동시에 실행되며, ps 명령어로 현재

2023년 6월 3일
·
0개의 댓글
·
post-thumbnail

[PySpark 개념 1] DataFrame

https://spark.apache.org/docs/latest/api/python/ 1. PySpark Python 에서 사용되는 Apache Spark interface 로, Spark applications 를 Python APIs 로 쓸 수 있을 뿐 아니

2022년 11월 25일
·
0개의 댓글
·
post-thumbnail

[SparkSQL] COUNT FILTER : 다른 조건으로 여러 건 집계

기존 COUNT 함수를 통해 컬럼 별 집계하는 것에서 더 나아가 조건을 부여한 집계를 할 수 있다COUNT 안에 컬럼 대신 \* OR 1 이 들어가면, 컬럼 값이 아닌 행 수를 기준으로 집계(null 값 포함)가상의 판매 테이블 PRD_TABLE 에서 지난 한 달간 전

2022년 11월 2일
·
0개의 댓글
·
post-thumbnail

[DB] 1. 데이터 베이스 기초

개인 학습을 위해 아래 docs 및 추가 자료를 참조해 작성한 기록 포스팅입니다.http://bigdata.dongguk.ac.kr/lectures/DB/\_book/MySQL1.html여러 응용프로그램 또는 사용자들이 공유|이용 할 수 있도록 체계적으로 통합

2022년 10월 7일
·
0개의 댓글
·
post-thumbnail

paramiko import 오류 해결

python 에서 원격 접속을 위해 paramiko 를 설치하고 import 하려는데 아래와 같은 오류가 발생했다. 해결해보자 1. anaconda local folder 내 Library/bin 아래에서 openssl.exe, openssl.pdb 를 복사해

2022년 9월 29일
·
0개의 댓글
·

OpenCV preprocessing 1 (resize, type, convert color)

1. 크기 조절 (Resize) 참조 영상이나 이미지를 확대하거나 축소하는 연산에서 확인할 수 있듯이 이미지의 크기를 변형하는 것은 단순한 연산은 아니다. 이미지를 확대하는 경우에는 픽셀에 대한 보간법, 이미지를 축소하는 경우에는 픽셀에 대한 병합법이 수행된다.

2022년 9월 18일
·
0개의 댓글
·
post-thumbnail

윈도우 환경에 ubuntu 18.04 dual booting

Rufus 활용 ubuntu 설치 https://jimnong.tistory.com/676 https://webnautes.tistory.com/1146 ubuntu 18.04 LTS 다운로드 https://releases.ubuntu.com/18.04.6/?_

2022년 9월 1일
·
0개의 댓글
·