profile
완료주의
태그 목록
전체보기 (82)mysql(10)DE(9)ML(8)python(8)django(7)머신러닝(6)programmers(6)데이터엔지니어(6)한기용(6)aws(6)장고(4)S3(4)코드스테이츠(4)비지도 학습(4)니꼴라스(4)golang(4)선형모델(4)go(4)elasticsearch(2)파이썬(2)Crawling(2)데이콘(2)spark(2)Wagtail(2)bs4(2)selenium(2)redis(2)athena(2)배포(2)csv파일import(1)cp(1)Reference counting(1)데이터 수집(1)다항 회귀(1)pip(1)React(1)boto3(1)Google BigQuery(1)튜플(1)아니지 yolo가 문제지(1)beautifulsoup(1)ElastiCache(1)S3getFile(1)kaggle(1)CDC(1)구글 트렌드 API(1)cms(1)GLUE(1)admin(1)대학합격예측(1)데이터 분석가의 숫자유감(1)공식문서(1)파이썬으로 데이터 수집(1)Polynominal Regression(1)mongodb(1)model selection(1)User Story Mapping(1)job(1)핸즈온 머신러닝(1)gensim(1)MemCache(1)load_dotenv(1)장고쥬겨버려(1)pytrends(1)vCPU(1)SQLAlchemy(1)AI(1)HBase(1)파이썬세상(1)Jeff Patton(1)awswrangler(1)로지스틱(1)Full Outer Join(1)Djnago(1)ray(1)bigtable(1)크롤링(1)nosql(1)데이터엔지니어링(1)db(1)Flask(1)네이버 크롤링(1)pyspark(1)사실 백엔드...?(1)팀프로젝트(1)유튜브 크롤링(1)airflow(1)csv(1)EMR Serverless(1)tuple(1)다중분류(1)DEBUG: Forbidden by robots.txt:(1)DB구축(1)pynecone(1)데이터 아키텍처(1)bookmark(1)nextjs(1)네이버크롤링(1)회고(1)중복데이터(1)EMR(1)DMS(1)snappy(1)sql(1)import(1)데이터 파이프라인(1)requests(1)pypi(1)garbage collector(1)scrapy(1)pyarrow(1)hadoop은 아니고(1)elastic cache(1)

[Opensearch]cluster_block_exception

문제 상황 kinesis firehose를 통해 들어오던 데이터가 어느 순간 {"type":"clusterblockexception","reason":"index [인덱스명] blocked by: [FORBIDDEN/8/index write (api)];"} 에러 로그

2023년 9월 23일
·
0개의 댓글
·
post-thumbnail

[AWS Glue]CDC

문제 상황S3의 데이터를 우리의 Data Mart인 Postgresql로 옮기는 ETL job을 run하면 중복 데이터가 계속 쌓인다. 예를 들어, 어제 100줄짜리 user테이블이 담긴 parquet 파일이 S3에 담겨있었고, 이걸 postgresql로 옮기는 ETL

2023년 9월 20일
·
0개의 댓글
·
post-thumbnail

[AWS EMR]vCPU 오버 에러 해결하기

Job failed as account has reached the service limit on the maximum vCPU it can use concurrently.

2023년 9월 20일
·
0개의 댓글
·
post-thumbnail

Spark로 S3의 객체 접근하기

Spark로 S3에 업로드 해둔 파일을 가져와 작업하는 경우가 있다. 이 경우, 방법이 두 가지이다.boto3로 s3에 접근한다. S3getFile 라이브러리를 통해 s3에 접근한다. 1번의 경우, 파일에 따라 전부 불러오지 못 하는 문제가 생겨, 나는 2번 방법으로

2023년 9월 15일
·
0개의 댓글
·

[Python]load_dotenv와 튜플

load_dotenv로 튜플 자료형을 불러올 때의 문제aws opensearch 클라이언트를 생성하는 간단한 함수를 생성한 뒤, 도메인에 대한 정보와 계정 정보를 전달하는 코드를 작성하였다. 간단한 함수였기에, 쉽게 연결될 줄 알았지만, 계속해서 opensearchpy

2023년 8월 15일
·
1개의 댓글
·

[Python]GC

파이썬은 객체가 중심이 되며, 참조 변수를 통해 객체에 접근할 수 있다. 예를 들어,이라고 선언이 되면, 100이라는 객체를 a가 참조하는 것이다. 이 때, a는 참조 변수라고 불린다. 만약이라고 선언을 하면 200이라는 객체가 추가적으로 더 생기고, a는 이번엔 10

2023년 6월 20일
·
0개의 댓글
·
post-thumbnail

[Elasticache]Redis 도입

새로운 아키텍처에서 채널리스트들을 빠르게 주고 받고 중복을 제거하기 위해 redis를 도입하기로 했다. aws 상에서 redis를 사용하기 위해서는 몇 가지 생각해볼 수 있는 안들이 있었다. Redis용 서버를 띄우기Elasticache에서 Redis 엔진 사용하기Am

2023년 6월 3일
·
0개의 댓글
·
post-thumbnail

[Elasticache]중복제거 그 끝은 어디인가

크롤링 한 채널리스트의 중복 제거 속도를 개선하자. 모든 키워드를 검색 후 수집한 채널이름과 url을 pandas Dataframe을 통해 duplicate를 삭제한다. 하나의 키워드 당 약 2~300개의 채널을 수집하게 되는데 모든 키워드들을 모으고 나면 중복되는 채

2023년 5월 28일
·
0개의 댓글
·
post-thumbnail

[Data Pipeline]데이터 파이프라인 고도화 회고

1️⃣ 첫 번째 아키텍처 처음 프로젝트에 합류했을 때, 처음 전달받은 데이터 아키텍처는 단순했다. 취업 전 프로젝트들을 Postgresql로 진행하고 회사에서도 Postgresql이었기 때문에 같은 RDB를 진행하기 좋은 기회라고 생각하여 크롤링 코드만 좀 잘 배워

2023년 5월 5일
·
1개의 댓글
·
post-thumbnail

[Python]공식문서 튜토리얼1-3

파이썬 공식문서를 기반으로 자습서(tutorial) 파트를 공부/발표하는 스터디를 진행하기로 했다.컴퓨터를 이용해 어떠한 작업을 자동화하기 위해서 우리에게 몇 가지 선택지가 있다. 예를 들어, Unix shell script나 Windows batch file, 그리고

2023년 5월 3일
·
0개의 댓글
·
post-thumbnail

[ray]로 크롤링 속도 개선

문제상황 python 병렬처리 프레임워크인 ray를 기존 코드에 도입하여 속도 개선을 도모한다. > #### 현재상황 네이버, 유튜브, AI 모델에서 수집/생성되는 연관어 데이터를 pandas DataFrame으로 만들고 SQLAlchemy를 이용해 DB에 저장한다.

2023년 4월 23일
·
0개의 댓글
·
post-thumbnail

[Athena]S3데이터 athena로 쿼리

S3로 옮긴 데이터를 aws athena를 이용해 \*\*테이블을 생성+파티셔닝을 해야한다. 우선, 테이블을 생성하면서 파티셔닝을 하기로 했다. S3에는 연도/월/일 폴더의 구조로 파일들이 들어가있다. 파티셔닝을 해주러 athena 콘솔로 들어가서 아래와 같이 작성한다

2023년 4월 18일
·
0개의 댓글
·
post-thumbnail

[PIP]--user 옵션

json 파일을 snappy로 압축하여 parquet 파일로 변환하는 과정을 실험해보고자 를 했더니 ERROR: Can not perform a '--user' install. User site-packages are not visible in this virtuale

2023년 4월 17일
·
0개의 댓글
·
post-thumbnail

[MySQL👉S3]데이터 이전

문제 상황 기존 RDS만 이용하는 아키텍처에서 S3->Glue->Athena로 아키텍처를 바꾸었다. 따라서 기존 RDS에 있던 데이터들을 날짜 파티셔닝 하여 S3에 넣기로 하였다. 그 전에, channel_history 테이블에는 크롤링해서 DB에 insert 된 날

2023년 4월 17일
·
0개의 댓글
·
post-thumbnail

[MySQL]Daily view 테이블 만들기

매일 업데이트 되는 유튜브 영상 데이터를 이용해 한 영상당 일일조회수를 추적하는 테이블을 만든다.현재 유튜브 영상의 데이터를 추적하기 위한 video_history라는 테이블이 존재하는데 주요 컬럼은 아래와 같다. video_id : 유튜브에서 부여한 영상마다의 idv

2023년 4월 13일
·
0개의 댓글
·
post-thumbnail

[DMS]admin 페이지 커스터마이징 + 업로드 기능

우선, 서버를 켜주고 admin 페이지에 접속해본다.로그인 후 위와 같은 화면이 나온다면 성공이다.왼쪽의 사이드바를 보면 기본적으로 wagtail이 제공해주는 기능들이 들어가있다. 오늘은 첫 화면과 사이드바를 커스터마이징 해보겠다. 기본적으로는 django의 상속 매커

2023년 4월 11일
·
0개의 댓글
·
post-thumbnail

[DMS]설계

현재 회사에서는 DMS 즉, Django로 웹을 구축하여 서버내의 데이터들을 관리하는 시스템을 개발하고 있다. 오늘은 그를 위한 간단한 컨셉과 설계에 대해 설명하고, 그간 겪은 문제점과 해결책에 대해 정리해보려 한다. 우리 회사는 다양한 데이터셋을 활용해 AI 모델을

2023년 4월 11일
·
0개의 댓글
·
post-thumbnail

[MySQL]중복 데이터 처리하기

영상데이터, 채널데이터, 추적데이터들을 담고있는 테이블들을 매일 업데이트 해야한다. 그런데 video_id나 channel_id가 PK로 걸려있는 경우도 있고 FK로 걸려있는 경우도 있어 insert에서 에러가 발생한다. 현재는 테이블이 아래와 같은 형태이다. 실제 데

2023년 4월 9일
·
0개의 댓글
·
post-thumbnail

[MySQL]테이블 생성 후 FK 설정

channel 테이블과 channel_history 테이블 사이에 channel_id로 FK를 설정해야 하는데, 테이블 생성 당시 안 하고 데이터가 이미 들어간 상황에서 FK 설정을 해야 한다. 바로 쿼리를 날려보았다.그 결과,라는 에러가 나왔다. 테이블 생성 당시에는

2023년 4월 9일
·
0개의 댓글
·
post-thumbnail

[Python]파이썬 자세히 공부하기 4️⃣

파이썬에서 continue는 점프문으로, 블록의 나머지 명령어들을 모두 실행하지 않은 채 루프의 다음 반복을 실행하기 위해 컨트롤을 이동시킨다. while문과 for문 모두에서 사용가능하다.자주 헷갈리는 개념으로, pass와 break가 있다.pass : 실행할 코드가

2023년 3월 6일
·
0개의 댓글
·