[네부캠] Week2 - ML Lifecycle

오홍석·2024년 8월 16일
0

네부캠

목록 보기
4/28

학습내용


ML Lifecycle Step

  • ML Lifecycle는 ML Model을 개발하고 배포, 유지보수하는 일련의 단계들을 정의하는 프로세스를 이야기한다.

1. 계획하기 (Plannging)

  • 머신러닝 서비스의 커버 범위와 성공 지표 및 해당 서비스가 성공적인 성과를 거둘 수 있을지 즉, 가능성을 평가한다.
  • 머신러닝 서비스를 적용하고자 하는 분야의 현재 프로세스에 대한 이해가 선행되어야 한다.
  • 비용-편익 분석과 적용하고자하는 해결책을 세분화 한다.
  • 비지니스, 머신 러닝 모델(정확도, F1점수, AUC), 경제성(핵심 성과 지표)에 대해서 명확하고 눈으로 확인 가능한 수치로 측정할 수 있는 성공 지표를 설정해야 한다.
  • 해당 서비스를 진행해야 하는 이유에 결함은 없는지를 검증한다.

2. 데이터 준비 (Data Preparation)

  • 머신러닝 모델을 학습시킬 데이터를 수집하고 라벨링을 진행한다. (데이터 수집 및 라벨링)
  • 수집한 데이터들 중에서 불필요한 데이터는 정리한다. (데이터 정리)
  • 사용할 데이터들을 조정 및 처리를 한다. (데이터 처리)
  • 데이터를 추가적인 데이터 수집과 관리를 한다. (데이터 관리)

3. 모델 엔지니어링 (Model Engineering)

  • 계획단계의 모든 정보를 활용하여 ML Model을 정의하고 훈련하는 과정이다.
  • 해당 분야에 적합한 ML Model을 정의한다.
  • 모델을 평가할 수 있는 지표를 정의한다.
  • 수집한 데이터를 학습 및 테스트 셋으로 구분하여 모델을 학습시키고, 검증한다.
  • 실험, 메타데이터, 기능, 코드 변경 및 머신 러닝 파이프라인을 추적한다. (정확하게 무슨 이야기인지 아직 이해못함)
  • 모델을 경량화하며, 다른 모델과 앙상블을 진행하여 본다.
  • 해당 도메인의 지식 전문가를 통해 Model을 통한 예측값을 해석하고 분석한다.

4. 모델 평가 (Model Evaluation)

  • 정의하고 학습시킨 Model이 해당 도메인에 실제로 사용될 수 있는지 확인하는 과정이다.
  • 모델을 테스트하고, 도메인의 지식 전문가를 통해서 Model이 통한 예측값에 오류가 있는지를 분석한다.
  • 모델을 정의하고 훈련시키는 과정에 있어서 산업적, 윤리적, 법적인 부분에서 어긴 것이 있는지 확인한다.
  • 무작위로 선택된 데이터 혹은 도메인에서 실제로 발생하는 데이터를 테스트하여 견고성(Robustness)을 테스트한다.
  • 예상한 모델 성능과 비교하여 ML Model을 도메인에 실제로 서비스할지를 결정한다.

5. 모델 배포 (Model Deployment)

  • 도메인에 실제로 해당 ML Model을 배포한다.
  • 배포하는 것은 분야에 따라서 다양한다.
  • 클라우드, 웹 브라우저, 소프트웨어 패키지 등이 가능하며 API, 플러그인 등으로도 가능하다.

6. 모니터링 및 유지, 관리 (Monitoring and Maintenance)

  • 배포한 후의 지속적인 시스템 모니터링과 개선을 이야기 한다.
  • 배포를 통해서 얻은 데이터를 통해서 Model을 개선시키고 새로운 소프트웨어와 하드웨어를 업데이트하기도 한다.
profile
기동코딩

0개의 댓글