언젠가 내 코드로 세상에 기여할 수 있도록, Data Science&BE 개발 기록 노트☘️

Introduce.

안녕하세요. 고민을 기록하고 공유하며 함께 성장하는 데이터 사이언티스트를 꿈꾸는 이하얀입니다.

백엔드 개발 경험을 살려 데이터 사이언티스트가 되기 위한 성장을 하고 있습니다.👩🏻‍💻

주로 Python 및 다양한 라이브러리, SQL, JupyterNotebook, Google Colab을 이용해 데이터를 분석하고 ML 모델의 회귀와 분류, DL 모델의 CNN, RNN, Transformer 등의 사용을 통해 모델 최적화를 수행합니다.

또한, 백엔드 개발 및 운영 경험을 장점으로 살려 데이터의 처리부터 분석, 모델 사용 및 배포까지의 전 과정을 이해하며 진행하는 연습을 하고 있습니다.

SpringBoot, MySQL, Redis, Git, Github를 활용한 백엔드 아키텍처 설계 및 개발
Postman, Swagger를 이용한 RESTful API를 명세 및 자동화
AWS, Docker, Nginx 기반 서비스 배포 경험

이러한 경험을 바탕으로 데이터 사이언티스트와 개발자 간의 협업을 원활하게 하고, 효율적인 데이터 처리 및 분석 모델 개발과 더불어 데이터 수집, 전처리, 배포, API 연동까지를 고려할 수 있는, 백엔드 API에 친화적인 데이터사이언티스트로서의 역량을 발휘하고 싶습니다.

금융 데이터를 활용한 인사이트 도출 및 모델링을 진행합니다.

금융 도메인에서의 시계열 데이터 분석 및 NLP 기반 프로젝트를 좋아합니다.

먼저, 시계열 데이터에 대한 분석 및 이해도를 높이기 위해 MIMIC-III 데이터셋을 사용하여 프로젝트를 진행한 경험이 있습니다.

MeMI
- MIMIC III : ICU 입원 환자들의 임상 기록, 생리학적 측정, 처방 정보, 검사 결과, 약물 처방 기록 등의 다양한 의료 정보를 포함(2001 ~ 2012)
- ICU 내 항생제 치료 전략 및 다제내성균(MDR) 감염의 치료 성공률 분석 프로젝트
  - ICU 환자의 항생제 사용과 치료 성공률 분석 : 항생제 사용을 통한 치료 성공률 최대 ROC-AUC 0.803 (XGB)
  - 중환자실 내 다제내성균(MDR) 감염 치료 효과 분석 : 치료 성공 여부 및 생존율 관계 분석, 특정 약물에 대한 반응 분석, 항생제 사용과 치료 성공 여부의 관계를 분석하여 특정 항생제의 사용이 치료 성공에 유의미한 영향을 끼침을 증명

또한 금융 뉴스를 요약하는 Naive RAG를 구축한 경험이 있으며, 현재는 금융 보고서 기반 VectorDB 및 Advanced RAG 시스템 구축을 진행하고 있습니다.

금융핀(FinPin)
- AI 기반 금융 뉴스 요약 솔루션 → 뉴스 사이트에서 제공하는 API를 데이터셋으로 활용하여 금융 뉴스를 요약하는 Naive RAG 구축
보고사
- 금융 보고서(KIS Weekly Report) 기반 VectorDB 및 RAG 시스템 구축
- 신뢰도가 중요한 financial 특성을 고려한 높은 Presicion 및 answer similarity를 안정적으로 유지할 수 있는 Advanced RAG 시스템 구축 진행중
  - AutoRAG를 이용한 QA셋 생성, RAGAS를 통한 정량 지표 평가 진행

이러한 과정을 통해 대량의 시계열 데이터 처리와 더불어 금융 도메인에 특화된 NLP 모델 최적화에 대한 관심을 키워가고 있습니다.

사용자를 위한 서비스를 배포하고, 문제를 개선하는 일을 좋아합니다.

백엔드 API를 배포하고 운영할 수 있는 DevOps를 사용한 경험이 있습니다.

AWS, Docker, Github Acitons, Nginx를 사용한 CI/CD 배포를 진행해 단순한 코드 작성에서 끝나는 것이 아닌, 사용 가능한 서비스의 개발 및 운영까지 원활하게 진행하는 방법을 고민하며 유저의 시선으로 서비스를 이해하는 역량을 쌓고자 노력해왔습니다.

실제로 주차장 인기도를 실시간으로 반영하기 위해 MySQL이 아닌 Redis를 도입하고, 도메인 접근 지연이 10초 이상 발생하는 원인을 분석하고 서버의 중단을 방지하기 위해 임시로 유저 캐시를 삭제하여 접근 시간을 2초 이내로 줄인 뒤 추후, RDBMS로 캐시를 이관하는 방안을 마련한 경험이 있습니다.

정리하고 계획하는 일을 좋아합니다.

이 점을 강점으로 삼아 velog에 트러블 슈팅 및 공부기록, 다양한 팁들을 지속적으로 학습하며 기록하고, 이를 통해 비효율적인 반복 작업을 최소화하고, 코드 및 모델 개선 방향을 고민해 왔습니다.

또한, 혼자하는 것보다는 '함께'하는 것이 규모있는 성과를 낼 수 있다고 생각하기에 Notion, Slack, Jira를 통해 팀 프로젝트를 계획적으로, 팀 구성원들과 적극적으로 커뮤니케이션하며 협업하는 경험을 쌓아왔습니다.

이러한 팀 프로젝트 경험을 통해 데이터 엔지니어, 개발자, 기획자와의 원활한 커뮤니케이션이 중요하다는 점을 배웠고, 이를 바탕으로 원활한 협업이 가능한 데이터 사이언티스트로서의 준비를 하고 있습니다.

데이터 사이언티스트로 성장하기 위해 노력하고 있습니다. 🚀

이전에 진행했던 다양한 프로젝트와 인턴 경험을 통해 백엔드 API를 설계하고 개발하며 데이터의 정확성과 일관성, 처리 속도가 서비스 품질에 미치는 영향을 직접적으로 체감할 수 있었습니다.

특히, API 단계에서의 알고리즘을 통한 단순 후처리만 수행되는 것이 아닌, 데이터 처리가 진행되는 사전 단계에서의 정확한 처리에 대한 중요성을 깨달을 수 있었고, 데이터 분석 및 데이터 사이언스 분야에 대한 깊은 관심을 가지게 되었습니다.

이를 통해, 현재 다양한 데이터의 특성을 활용한 의사결정과 모델 운영 최적화에 집중하고 있으며, MLOps 파이프라인 구축 경험을 쌓고 있습니다.

다양한 데이터의 특성을 활용한 분석 방법에 대한 학습을 마치고, 현재 금융 데이터의 시계열 분석 및 NLP 기반 RAG 시스템 및 모델 최적화에 집중하고 있으며 백엔드 개발 경험을 살려 데이터 사이언스와 엔지니어링의 경계를 연결할 수 있는 방법에 대한 학습을 진행하고 있습니다.

금융 시계열 데이터 분석 및 예측 모델 연구
- 시계열 데이터의 노이즈 제거, Feature Engineering
- ML/DL 모델을 이용한 모델링 및 예측 결과 분석
- 이상 거래 탐지를 위한 데이터 분석 프로젝트 진행
금융 도메인 특화 NLP 모델 최적화
- LangChain 및 RAG 기반 금융 뉴스 요약 프로젝트
- KIS Weekely Report 기반 VectorDB 구축 및 Advanced RAG 시스템 구축 프로젝트
  - 금융 데이터 특성을 반영한 메타데이터 활용 방법 연구 : summary, markdown, sorce…
  - 날짜 기반 사용자 쿼리에 대한 동적 대응 방법 연구 : 날짜 데이터셋을 이용한 OpenAI Model FineTunning 진행중

발전 방향.

또한, 데이터 양이 제한적인 환경에서의 로직 최적화와 성능 개선의 어려움을 겪었던 백엔드 및 데이터 사이언스 경험을 바탕으로, 금융 도메인에서의 시계열을 포함한 대규모 데이터의 모델 최적화 및 API 연동 시의 서버 부하 최소화 및 확장 가능성에 대한 고민을 이어가고 있습니다.

그동안의 API 개발 경험을 강점으로 활용하고, 데이터 사이언스 경험을 더해 단순한 구현 및 테스트 코드 작성, 모델 구현에 그치지 않고 데이터 특성을 반영한 최적 기술 도입 및 튜닝을 시도하며 모델 경량화에 대한 고민 역시 이어가는 중입니다.

특히, 대량 데이터 요청 시 서버 부하를 최소화하는 최적 기법을 연구했던 경험을 바탕으로, 데이터 역시 효율적으로 처리할 수 있는 파이프라인을 구축하고 모델 운영 및 설계 고도화를 진행할 수 있도록 학습하고 있습니다.

이러한 기반들을 바탕으로 개발자 및 데이터 엔지니어와의 원활한 협업을 이끌어 낼 수 있는 좋은 데이터 사이언티스트가 되기 위해 노력하고 있습니다😊