시리즈

[유튜브 프로젝트]

1.[DE프젝]첫 번째 회고

✒ 프로젝트 개요 12월부터 참여하게 된 팀 프로젝트가 있어 그 과정을 기록하려 한다. 내가 참여한 프로젝트는 실제로 서비스로 출시를 목표로 하는 팀이고, 각 분야의 미들 이상급 분들과 주니어가 섞인 성장형+실무형 프로젝트다. 프로젝트는 유튜브 데이터를 AI 학습

2023년 1월 31일

2.[DE프젝]두 번째 회고

🥹 엘라스틱에서 MySQL로 1월 한 달을 es 공부와 구축에 쏟았다. 그러던 중 2월 초, 백엔드분으로부터 es로만 구축하면 서버가 뻗을 것이다 라는 얘기를 들었다. 그래서 처음 DB였던 MySQL로 회귀하였다..... 처음엔 간단하게 MySQL이 RDB니까 더

2023년 3월 2일

3.[MySQL]테이블 생성 후 FK 설정

channel 테이블과 channel_history 테이블 사이에 channel_id로 FK를 설정해야 하는데, 테이블 생성 당시 안 하고 데이터가 이미 들어간 상황에서 FK 설정을 해야 한다. 바로 쿼리를 날려보았다.그 결과,라는 에러가 나왔다. 테이블 생성 당시에는

2023년 4월 9일

4.[MySQL]중복 데이터 처리하기

영상데이터, 채널데이터, 추적데이터들을 담고있는 테이블들을 매일 업데이트 해야한다. 그런데 video_id나 channel_id가 PK로 걸려있는 경우도 있고 FK로 걸려있는 경우도 있어 insert에서 에러가 발생한다. 현재는 테이블이 아래와 같은 형태이다. 실제 데

2023년 4월 9일

5.[MySQL]Daily view 테이블 만들기

매일 업데이트 되는 유튜브 영상 데이터를 이용해 한 영상당 일일조회수를 추적하는 테이블을 만든다.현재 유튜브 영상의 데이터를 추적하기 위한 video_history라는 테이블이 존재하는데 주요 컬럼은 아래와 같다. video_id : 유튜브에서 부여한 영상마다의 idv

2023년 4월 13일

6.[MySQL👉S3]데이터 이전

문제 상황 기존 RDS만 이용하는 아키텍처에서 S3->Glue->Athena로 아키텍처를 바꾸었다. 따라서 기존 RDS에 있던 데이터들을 날짜 파티셔닝 하여 S3에 넣기로 하였다. 그 전에, channel_history 테이블에는 크롤링해서 DB에 insert 된 날

2023년 4월 17일

7.[PIP]--user 옵션

json 파일을 snappy로 압축하여 parquet 파일로 변환하는 과정을 실험해보고자 를 했더니 ERROR: Can not perform a '--user' install. User site-packages are not visible in this virtuale

2023년 4월 17일

8.[Athena]S3데이터 athena로 쿼리

S3로 옮긴 데이터를 aws athena를 이용해 \*\*테이블을 생성+파티셔닝을 해야한다. 우선, 테이블을 생성하면서 파티셔닝을 하기로 했다. S3에는 연도/월/일 폴더의 구조로 파일들이 들어가있다. 파티셔닝을 해주러 athena 콘솔로 들어가서 아래와 같이 작성한다

2023년 4월 18일

9.[ray]로 크롤링 속도 개선

문제상황 python 병렬처리 프레임워크인 ray를 기존 코드에 도입하여 속도 개선을 도모한다. > #### 현재상황 네이버, 유튜브, AI 모델에서 수집/생성되는 연관어 데이터를 pandas DataFrame으로 만들고 SQLAlchemy를 이용해 DB에 저장한다.

2023년 4월 23일

10.[Data Pipeline]데이터 파이프라인 고도화 회고

1️⃣ 첫 번째 아키텍처 처음 프로젝트에 합류했을 때, 처음 전달받은 데이터 아키텍처는 단순했다. 취업 전 프로젝트들을 Postgresql로 진행하고 회사에서도 Postgresql이었기 때문에 같은 RDB를 진행하기 좋은 기회라고 생각하여 크롤링 코드만 좀 잘 배워

2023년 5월 5일

11.[Elasticache]중복제거 그 끝은 어디인가

크롤링 한 채널리스트의 중복 제거 속도를 개선하자. 모든 키워드를 검색 후 수집한 채널이름과 url을 pandas Dataframe을 통해 duplicate를 삭제한다. 하나의 키워드 당 약 2~300개의 채널을 수집하게 되는데 모든 키워드들을 모으고 나면 중복되는 채

2023년 5월 28일

12.[Elasticache]Redis 도입

새로운 아키텍처에서 채널리스트들을 빠르게 주고 받고 중복을 제거하기 위해 redis를 도입하기로 했다. aws 상에서 redis를 사용하기 위해서는 몇 가지 생각해볼 수 있는 안들이 있었다. Redis용 서버를 띄우기Elasticache에서 Redis 엔진 사용하기Am

2023년 6월 3일

13.[Opensearch]cluster_block_exception

문제 상황 kinesis firehose를 통해 들어오던 데이터가 어느 순간 {"type":"clusterblockexception","reason":"index [인덱스명] blocked by: [FORBIDDEN/8/index write (api)];"} 에러 로그

2023년 9월 23일