안녕하세요. 고민을 기록하고 공유하며 함께 성장하는 데이터 사이언티스트를 꿈꾸는 이하얀입니다.
주로 Python 및 다양한 라이브러리, SQL, JupyterNotebook, Google Colab을 이용해 데이터를 분석하고 ML 모델의 회귀와 분류, DL 모델의 CNN, RNN, Transformer 등의 사용을 통해 모델 최적화를 수행합니다.
또한, 백엔드 개발 및 운영 경험을 장점으로 살려 데이터의 처리부터 분석, 모델 사용 및 배포까지의 전 과정을 이해하며 진행하는 연습을 하고 있습니다.
이러한 경험을 바탕으로 데이터 사이언티스트와 개발자 간의 협업을 원활하게 하고, 효율적인 데이터 처리 및 분석 모델 개발과 더불어 데이터 수집, 전처리, 배포, API 연동까지를 고려할 수 있는, 백엔드 API에 친화적인 데이터사이언티스트로서의 역량을 발휘하고 싶습니다.
금융 도메인에서의 시계열 데이터 분석 및 NLP 기반 프로젝트를 좋아합니다.
먼저, 시계열 데이터에 대한 분석 및 이해도를 높이기 위해 MIMIC-III 데이터셋을 사용하여 프로젝트를 진행한 경험이 있습니다.
0.803
(XGB)또한 금융 뉴스를 요약하는 Naive RAG를 구축한 경험이 있으며, 현재는 금융 보고서 기반 VectorDB 및 Advanced RAG 시스템 구축을 진행하고 있습니다.
이러한 과정을 통해 대량의 시계열 데이터 처리와 더불어 금융 도메인에 특화된 NLP 모델 최적화에 대한 관심을 키워가고 있습니다.
백엔드 API를 배포하고 운영할 수 있는 DevOps를 사용한 경험이 있습니다.
AWS, Docker, Github Acitons, Nginx를 사용한 CI/CD 배포를 진행해 단순한 코드 작성에서 끝나는 것이 아닌, 사용 가능한 서비스의 개발 및 운영까지 원활하게 진행하는 방법을 고민하며 유저의 시선으로 서비스를 이해하는 역량을 쌓고자 노력해왔습니다.
실제로 주차장 인기도를 실시간으로 반영하기 위해 MySQL이 아닌 Redis를 도입하고, 도메인 접근 지연이 10초 이상 발생하는 원인을 분석하고 서버의 중단을 방지하기 위해 임시로 유저 캐시를 삭제하여 접근 시간을 2초 이내로 줄인 뒤 추후, RDBMS로 캐시를 이관하는 방안을 마련한 경험이 있습니다.
이 점을 강점으로 삼아 velog에 트러블 슈팅 및 공부기록, 다양한 팁들을 지속적으로 학습하며 기록하고, 이를 통해 비효율적인 반복 작업을 최소화하고, 코드 및 모델 개선 방향을 고민해 왔습니다.
또한, 혼자하는 것보다는 '함께'하는 것이 규모있는 성과를 낼 수 있다고 생각하기에 Notion, Slack, Jira를 통해 팀 프로젝트를 계획적으로, 팀 구성원들과 적극적으로 커뮤니케이션하며 협업하는 경험을 쌓아왔습니다.
이러한 팀 프로젝트 경험을 통해 데이터 엔지니어, 개발자, 기획자와의 원활한 커뮤니케이션이 중요하다는 점을 배웠고, 이를 바탕으로 원활한 협업이 가능한 데이터 사이언티스트로서의 준비를 하고 있습니다.
이전에 진행했던 다양한 프로젝트와 인턴 경험을 통해 백엔드 API를 설계하고 개발하며 데이터의 정확성과 일관성, 처리 속도가 서비스 품질에 미치는 영향을 직접적으로 체감할 수 있었습니다.
특히, API 단계에서의 알고리즘을 통한 단순 후처리만 수행되는 것이 아닌, 데이터 처리가 진행되는 사전 단계에서의 정확한 처리에 대한 중요성을 깨달을 수 있었고, 데이터 분석 및 데이터 사이언스 분야에 대한 깊은 관심을 가지게 되었습니다.
이를 통해, 현재 다양한 데이터의 특성을 활용한 의사결정과 모델 운영 최적화에 집중하고 있으며, MLOps 파이프라인 구축 경험을 쌓고 있습니다.
다양한 데이터의 특성을 활용한 분석 방법에 대한 학습을 마치고, 현재 금융 데이터의 시계열 분석 및 NLP 기반 RAG 시스템 및 모델 최적화에 집중하고 있으며 백엔드 개발 경험을 살려 데이터 사이언스와 엔지니어링의 경계를 연결할 수 있는 방법에 대한 학습을 진행하고 있습니다.
또한, 데이터 양이 제한적인 환경에서의 로직 최적화와 성능 개선의 어려움을 겪었던 백엔드 및 데이터 사이언스 경험을 바탕으로, 금융 도메인에서의 시계열을 포함한 대규모 데이터의 모델 최적화 및 API 연동 시의 서버 부하 최소화 및 확장 가능성에 대한 고민을 이어가고 있습니다.
그동안의 API 개발 경험을 강점으로 활용하고, 데이터 사이언스 경험을 더해 단순한 구현 및 테스트 코드 작성, 모델 구현에 그치지 않고 데이터 특성을 반영한 최적 기술 도입 및 튜닝을 시도하며 모델 경량화에 대한 고민 역시 이어가는 중입니다.
특히, 대량 데이터 요청 시 서버 부하를 최소화하는 최적 기법을 연구했던 경험을 바탕으로, 데이터 역시 효율적으로 처리할 수 있는 파이프라인을 구축하고 모델 운영 및 설계 고도화를 진행할 수 있도록 학습하고 있습니다.
이러한 기반들을 바탕으로 개발자 및 데이터 엔지니어와의 원활한 협업을 이끌어 낼 수 있는 좋은 데이터 사이언티스트가 되기 위해 노력하고 있습니다😊