[MLOps] Data Management

GisangLee·2023년 3월 25일
0

ML

목록 보기
128/141

1. Data Management

데이터 분석 과정 중 다양한 분석이 이루어진 데이터 버전들이 쌓이게 되는데,
추후에 어떤 데이터가 어떠한 feature engineering을 통해 나온 데이터인지 기억하거나 확인하기 어려워 진다.

분석이 이루어진 각 데이터 파일들을 파일 명으로 관리하면?

이것도 하나의 방법이 될 수 있다.
BUT 더욱 효율적이고 간편한 tool이 있다면 어떨까?

Git

  • Source Code Version Control ( 형상 관리 툴 )
  • Github, GitLab, Bitbucket
    ( 대용량 데이터를 올리고 다운로드 받기에는 적합하지 않다 )

Git + 추가 툴

  • DVC
  • Pachyderm
  • Delta Lake
  • Dolt

DVC (오픈소스)

대부분의 스토리지와 호환

  • S3, google drice .. etc

깃헙 외 깃랩, Bitbucket 등의 대부분의 git 호스팅 서버와 연동

Data Pipeline을 DAG로 관리

Git과 유사한 인터페이스

DVC 저장 방식

  • model.pkl 등과 같은 어떠한 데이터가 있을 때, dvc add를 수행하면
    model.pkl.dvc와 같은 .dvc 확장자 파일이 생성된다.

  • .dvc 파일은 원래 데이터의 메타 데이터 및 원격 데이터 스토리지 (s3 등)의 정보가 담겨있다.

  • .dvc 파일만 깃에 저장이 된다.

profile
포폴 및 이력서 : https://gisanglee.github.io/web-porfolio/

0개의 댓글