Model Serving

-·2022년 1월 10일

강의정리 - MLOps

목록 보기

2/18

네이버 부스트 캠프 ai tech 변성윤 강사님의 강의 영상을 정리한 글입니다.
문제, 잘못된 점이 있다면 최대한 빠르게 수정하겠습니다 !

목차
1. Model Serving
1.1 Serving Basic
2. Online Serving
2.1 Web Server Basic
2.2 API
2.3 Online Serving Basic
3. Batch Serving
3.1 Batch Serving Basic
3.2 Online Serving vs Batch Serving

1. Model Serving

Serving Basic
Serving

Production(real world)환경에 모델을 사용할 수 있도록 배포
머신러닝 모델을 개발하고, 현실세계(앱,웹)에서 사용할 수 있게 만드는 행위
서비스화라고 표현할 수 있음
머신러닝 모델을 회사 서비스의 기능 중 하나로 활용
예: 추천시스템의 추천 알고리즘
Input이 제공되면 모델이 예측 값(Output)을 반환

크게 2가지 방식

Online Serving
Batch Serving
그 외에 클라이언트(모바일 기기, IoT Device등)에서 Edge Serving 존재

용어가 혼재되는 경우가 있다. 정리하고 가자 !
Serving : 모델을 웹/앱 서비스에 배포하는 과정, 모델을 활용하는 방식, 모델을 서비스화하는 관점
Inferece : 모델에 데이터가 제공되어 예측하는 경우, 사용하는 관점
Serving - Inferece 용어가 혼재되어 사용되는 경우도 존재
Online Serving/ online inferece
Batch Serving(+inference)

2. Online Serving

Web Server Basic
웹서버 (wikipedia)

HTTP를 통해 웹 브라우저에서 요청하는 HTML 문서나 오브젝트를 전송해주는 서비스 프로그램
요청(Request)을 받으면 요청한 내용을 보내주는 (Response)프로그램

web server(홀서빙알바)는 client(손님)의 다양한 요청을 처리해주는 역할.

machine learning server는 client의 다양한 요청을 처리해주는 역할
(데이터 전처리, 모델을 기반으로 예측 등)

모든 웹서버는 Request와 Response로 나뉜다.

유튜브에 접속했을때 .
HTTP Request ->
크롬 : Browser, Client www.youtube.com : Server
<- HTTP Response

고객이 회원가입을 요청 (HTTP Request)
쇼핑몰은 검증한 후 회원가입 완료 응답 ( HTTP Response)

머신러닝 모델 서버

어떤 데이터를 제공하면서 예측해달라고 요청하면 모델을 사용해 예측값을 반환하는 서버

API
Application Programming Interface
운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스

사용자들이 프로그램이나 어플리케이션을 사용할 수 있도록 여러 기능이 존재
TV의 리모컨: TV를 켜거나, 채널을 이동하거나, 음량을 조정

인터페이스 : 기계와 인간의 소통 창구 !

API:

특정 서비스에서 해당 기능을 사용할 수 있도록 외부에 노출 : 기상청 API, 지도 API
라이브러리의 함수 : Pandas, Tensorflow, Pytorch

카카오,구글,네이버,AWS,구글 등에서 API 제공
라이브러리의 API Document : 함수가 API라고 생각하면 된다!

Online Serving Basic
Input Data -> (Rest API <-> Model) -> Output data

요청(Request)이 올 때마다 실시간으로 예측
ML모델 서버에 요청할때 필요시 ML모델 서버에서 데이터 전처리를 해야할 수 있음
(혹은 분리를 위해 전처리 서버/ ML모델 서버로 나눌 수도 있음)
서비스의 서버에 ML서버를 포함하는 경우도 있고, ML서버를 별도로 운영하는 경우도 존재
회사에서 개발 조직과 데이터 조직의 협업하는 방식에 따라 다르게 개발할 수 있음.

Online Serving을 구현하는 방식
1) 직접 API 웹 서버 개발 : Flask, FastAPI 등을 사용해 서버 구축

2) 클라우드 서비스 활용 : AWS의 SageMaker, GCP의 vertex AI등.

클라우드 서비스의 아쉬운 점
클라우드 서비스가 익숙해야 잘 활용할 수 있음
비용문제: 직접 만드는 것보단 더 많은 비용이 나갈 수 있음
회사의 상황에 따라 클라우드 서비스를 활용하는 것이 좋은 시기도 존재
소수의 인원만 존재하며, 소수의 인원이 많은 업무를 해야하는 경우
클라우드 내부 실행 구조를 잘 알아야 문제 상황이 발견되었을 때 잘 해결할 수 있음
클라우드 서비스에선 어떤 방식으로 AI제품을 만들었는지 확인할 수도 있어서 사용해보는 것도 좋음.

3) Serving 라이브러리 활용 : TF Serving, Torch Serve, MLFlow, BentoML 등

FastAPI등을 활용할 수 있지만, 처음에 서버에 대한 이해가 충분하지 않으면 어려울 수 있음
다양한 방식으로 개발할 수 있지만, 매번 추상화된 패턴을 가질 수 있음
추상화된 패턴을 잘 제공하는 오픈소스를 활용하는 방식
BentoML 예시
위코드를 실행한 후, 학습한 후 CLI에서 명령어를 입력하면 배포 끝! -> part3~4에서 배워보자 !

다양한 serving방법을 선택하는 가이드
어떤 방법을 쓰느냐는 주어진 환경(회사에서 주어진 일정, 인력, 예산, 요구, 성능 등)에 따라 다름

3. Batch Serving

Workflow Scheduler
위작업을 특정 기간 단위(하루, 1시간) 등으로 실행
10시에 python main.py 11시에 python main.py 실행 등.

Batch Serving : 주기적으로 학습을 하거나 예측을 하는경우

30분에 1번씩 최근 데이터를 가지고 예측
Batch 묶음(30분의 데이터)를 한번에 예측
모델의 활용 방식에 따라 30분일 수도 있고, 1주일, 하루 단위일 수 있음
한번에 많은 예측을 실행
특정시간에 반복해서 실행
Batch는 데이터 엔지니어링에서 자주 활용되는 용어. 한꺼번에 배치 단위로 묶음(DataLoader의 Batch와 유사)

Batch Serving관련한 라이브러리는 따로 존재하지 않음
함수단위를 "주기적"으로 실행함
아침 10시에 python main.py
아침 11시에 python main.py

Airflow, Cron Job등으로 스케쥴링 작업(Workflow Scheduler)
학습/예측을 별도의 작업으로 설정

학습: 1주일에 1번
예측: 10분,30분,1시간에 1번씩

예시 : 추천시스템
1일전에 생성된 컨텐츠에 대한 추천 리스트 예측
1시간 뒤 수요 예측
재고 및 입고 최적화를 위해 매일 매장별 제품 수요 예측
->실시간이 필요 없는 대부분의 방식에서 활용 가능

Batch Serving Basic-장점

Jupyter notebook에 작성한 코드를 함수화한 후 주기적으로 실행하는 간단한 구조 !
Online Serving보다 구현이 수월하며, 간단함.
한번에 많은 데이터를 처리하므로 Latency가 문제되지 않음

Batch Serving Basic-단점
실시간으로 활용할 수 없음
Cold Start문제 : 오늘 새로 생긴 컨텐츠는 추천할 수 없음

Workflow Scheduler

데이터 엔지니어링에서 자주 활용되는 Airflow
리눅스의 Cron Job
Awesome Workflow Engines Github < 찾아보기

4. Online Serving vs Batch Serving

online vs Batch를 선택하는 기준 - Input 관점
데이터 하나씩 요청하는 경우 : Online
여러가지 데이터가 한꺼번에 처리되는 경우 : Batch

online vs Batch를 선택하는 기준 - Output 관점
inference output을 어떻게 활용하는지에 따라 다름

API 형태로 바로 결과를 반환해야 하는 경우 : Online
서버와 통신이 필요한 경우 : Online
1시간에 1번씩 예측해도 괜찮은 경우: Batch

처음부터 Online Serving(API형태)만들어야 하는 것은 아니고,
실시간 모델 결과가 어떻게 활용되는지에 대한 생각이 필요
(예측해도 활용이 되지 않는다면 Batch로 진행해도 무방)

Batch Serving의 결과를 Database에 저장하고,
서버는 Database의 데이터를 쿼리해서 주기적으로 조회하는 방식으로 사용할 수 있음

우선 Batch Serving으로 모델을 운영하면서 점점 API 형태로 변환

더 발전하기 위한 과제

Rules of Machine Learning: Best Practices for ML Engineering
Online Serving/ Batch Serving기업들의 Use Case찾아서 정리하기
(어떤 방식으로 되어 있는지 이해가 되지 않아도 문서를 천천히 읽고 정리하기)