Model Serving

-·2022년 1월 10일
0

강의정리 - MLOps

목록 보기
2/18

네이버 부스트 캠프 ai tech 변성윤 강사님의 강의 영상을 정리한 글입니다.
문제, 잘못된 점이 있다면 최대한 빠르게 수정하겠습니다 !

목차
1. Model Serving
1.1 Serving Basic
2. Online Serving
2.1 Web Server Basic
2.2 API
2.3 Online Serving Basic
3. Batch Serving
3.1 Batch Serving Basic
3.2 Online Serving vs Batch Serving

1. Model Serving

Serving Basic
Serving

  • Production(real world)환경에 모델을 사용할 수 있도록 배포
  • 머신러닝 모델을 개발하고, 현실세계(앱,웹)에서 사용할 수 있게 만드는 행위
  • 서비스화라고 표현할 수 있음
  • 머신러닝 모델을 회사 서비스의 기능 중 하나로 활용
  • 예: 추천시스템의 추천 알고리즘
  • Input이 제공되면 모델이 예측 값(Output)을 반환

크게 2가지 방식

  • Online Serving
  • Batch Serving
    그 외에 클라이언트(모바일 기기, IoT Device등)에서 Edge Serving 존재

용어가 혼재되는 경우가 있다. 정리하고 가자 !
Serving : 모델을 웹/앱 서비스에 배포하는 과정, 모델을 활용하는 방식, 모델을 서비스화하는 관점
Inferece : 모델에 데이터가 제공되어 예측하는 경우, 사용하는 관점
Serving - Inferece 용어가 혼재되어 사용되는 경우도 존재
Online Serving/ online inferece
Batch Serving(+inference)

2. Online Serving

Web Server Basic
웹서버 (wikipedia)

  • HTTP를 통해 웹 브라우저에서 요청하는 HTML 문서나 오브젝트를 전송해주는 서비스 프로그램
  • 요청(Request)을 받으면 요청한 내용을 보내주는 (Response)프로그램

web server(홀서빙알바)는 client(손님)의 다양한 요청을 처리해주는 역할.

machine learning server는 client의 다양한 요청을 처리해주는 역할
(데이터 전처리, 모델을 기반으로 예측 등)

모든 웹서버는 Request와 Response로 나뉜다.

유튜브에 접속했을때 .
HTTP Request ->
크롬 : Browser, Client www.youtube.com : Server
<- HTTP Response

고객이 회원가입을 요청 (HTTP Request)
쇼핑몰은 검증한 후 회원가입 완료 응답 ( HTTP Response)

머신러닝 모델 서버

  • 어떤 데이터를 제공하면서 예측해달라고 요청하면 모델을 사용해 예측값을 반환하는 서버

API
Application Programming Interface
운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스

사용자들이 프로그램이나 어플리케이션을 사용할 수 있도록 여러 기능이 존재
TV의 리모컨: TV를 켜거나, 채널을 이동하거나, 음량을 조정

인터페이스 : 기계와 인간의 소통 창구 !

API:

  • 특정 서비스에서 해당 기능을 사용할 수 있도록 외부에 노출 : 기상청 API, 지도 API
  • 라이브러리의 함수 : Pandas, Tensorflow, Pytorch

카카오,구글,네이버,AWS,구글 등에서 API 제공
라이브러리의 API Document : 함수가 API라고 생각하면 된다!

Online Serving Basic
Input Data -> (Rest API <-> Model) -> Output data

  • 요청(Request)이 올 때마다 실시간으로 예측

  • ML모델 서버에 요청할때 필요시 ML모델 서버에서 데이터 전처리를 해야할 수 있음
    (혹은 분리를 위해 전처리 서버/ ML모델 서버로 나눌 수도 있음)

  • 서비스의 서버에 ML서버를 포함하는 경우도 있고, ML서버를 별도로 운영하는 경우도 존재

  • 회사에서 개발 조직과 데이터 조직의 협업하는 방식에 따라 다르게 개발할 수 있음.

Online Serving을 구현하는 방식
1) 직접 API 웹 서버 개발 : Flask, FastAPI 등을 사용해 서버 구축

2) 클라우드 서비스 활용 : AWS의 SageMaker, GCP의 vertex AI등.

  • 클라우드 서비스의 아쉬운 점
  • 클라우드 서비스가 익숙해야 잘 활용할 수 있음
  • 비용문제: 직접 만드는 것보단 더 많은 비용이 나갈 수 있음
  • 회사의 상황에 따라 클라우드 서비스를 활용하는 것이 좋은 시기도 존재
  • 소수의 인원만 존재하며, 소수의 인원이 많은 업무를 해야하는 경우
  • 클라우드 내부 실행 구조를 잘 알아야 문제 상황이 발견되었을 때 잘 해결할 수 있음
  • 클라우드 서비스에선 어떤 방식으로 AI제품을 만들었는지 확인할 수도 있어서 사용해보는 것도 좋음.

3) Serving 라이브러리 활용 : TF Serving, Torch Serve, MLFlow, BentoML 등

  • FastAPI등을 활용할 수 있지만, 처음에 서버에 대한 이해가 충분하지 않으면 어려울 수 있음
  • 다양한 방식으로 개발할 수 있지만, 매번 추상화된 패턴을 가질 수 있음
  • 추상화된 패턴을 잘 제공하는 오픈소스를 활용하는 방식
  • BentoML 예시
  • 위코드를 실행한 후, 학습한 후 CLI에서 명령어를 입력하면 배포 끝! -> part3~4에서 배워보자 !

다양한 serving방법을 선택하는 가이드
어떤 방법을 쓰느냐는 주어진 환경(회사에서 주어진 일정, 인력, 예산, 요구, 성능 등)에 따라 다름

추천 방식

  • (만약 회사에서 클라우드 비용에 대해 괜찮을 경우)
  1. 프로토타입 모델을 클라우드 서비스를 활용해 배포
  2. 직접 FastAPI등을 활용해 서버 개발
  3. Serving 라이브러리를 활용해 개발
    위와 같은 Flow로 체험하는 것을 추천 !

이 강의에선 아래와 같은 방식으로 진행
1. 프로토타입 개발
2. Fast API로 서버개발
3. Serving 라이브러리로 개발

왜 바로 Serving 라이브러리를 학습하지 않는가?!

  • 사용하기엔 편하지만, 이강의는 툴을 학습하는 강의가 아니라 점진적으로 문제를 해결하는 강의
  • 여러가지 방법중 이 방법을 왜 선택하는지에 대한 인식을 키워주고 싶음
  • 오픈소스는 계속 개발되고 있기 때문에 언제든 새로운 오픈소스가 나올 수 있음( 라이브러리에 종속되지 말기)
  • High level 오픈소스를 먼저 사용할 경우 Low level의 이해도가 부족할 수 있음
  • 서버 프로그래밍은 필수적으로 경험해야하기 때문에 먼저 서버 프로그래밍을 해보고 Serving 라이브러리를 학습

Online Serving에서 고려한 부분
Serving 할 때 Python 버전, 패키지 버전 등 Dependency가 굉장히 중요
"재현 가능"하지 않은 코드는 Risk를 가지고 있는 코드
관련해서 Virtualenv, Poetry, Docker도 학습할 예정

실시간 예측을 하기 때문에 예측할 때 지연시간(latency)를 최소화 해야함.
Latency:하나의 예측을 요청하고 반환값을 받는데까지 걸리는 시간
이 값은 짧을 수록 좋으며 Latency가 길다는 것은 Loading이 긴 것과 유사

  1. Input data를 기반으로 database에 있는 데이터를 추출해서 모델 예측해야 하는 경우
  • 데이터는 다양한 공간(database,AWS s3)에 저장되어 있을 수 있음
  • 데이터를 추출하기 위해 쿼리를 실행하고, 결과를 받는 시간이 소요
  1. 모델이 수행하는 연산
  • RNN, LSTM등은 회귀분석보다 많은 연산을 요구하고, 더 오래걸림
  • 이를 위해 모델을 경량화하는 작업이 필요할 수 잇으며, 복잡한 모델보다 간단한 모델을 사용하는 경우도 존재.
  1. 결과 값에 대한 보정이 필요한 경우
  • 머신러닝 알고리즘에서 유효하지 않은 예측값이 반환될 수 있음

  • 예를 들어 집 값을 예측하는데, 0 이하의 마이너스 값이 나올 수 있음

  • 이런 경우 결과를 보정하는 코드가 필요할 수 있음

  • 예 : 집값이 마이너스면 0을 표기

    part 4에서 데이터 전처리,서버분리, Feature Store) 모델 경량화, 병렬처리 (Ray), 예측 결과 캐싱

Serving Input -> Single Data Point
단일 데이터를 받아 실시간으로 예측을 하는 예제
기계 고장 예측 모델

  • 센서의 실시간 데이터가 제공되면 특정 기계 부품이 앞으로 N분 안에 고장날지 아닐지를 예측
    음식 배달 소요 시간 예측
  • 해당 지역의 과거 평균 배달 시간, 실시간 교통 정보, 음식 데이터 등을 기반으로 음식 배달 소요 시간 예측

3. Batch Serving

Workflow Scheduler
위작업을 특정 기간 단위(하루, 1시간) 등으로 실행
10시에 python main.py 11시에 python main.py 실행 등.

Batch Serving : 주기적으로 학습을 하거나 예측을 하는경우

  • 30분에 1번씩 최근 데이터를 가지고 예측
  • Batch 묶음(30분의 데이터)를 한번에 예측
  • 모델의 활용 방식에 따라 30분일 수도 있고, 1주일, 하루 단위일 수 있음
  • 한번에 많은 예측을 실행
  • 특정시간에 반복해서 실행
  • Batch는 데이터 엔지니어링에서 자주 활용되는 용어. 한꺼번에 배치 단위로 묶음(DataLoader의 Batch와 유사)

Batch Serving관련한 라이브러리는 따로 존재하지 않음
함수단위를 "주기적"으로 실행함
아침 10시에 python main.py
아침 11시에 python main.py

Airflow, Cron Job등으로 스케쥴링 작업(Workflow Scheduler)
학습/예측을 별도의 작업으로 설정

  • 학습: 1주일에 1번
  • 예측: 10분,30분,1시간에 1번씩

예시 : 추천시스템
1일전에 생성된 컨텐츠에 대한 추천 리스트 예측
1시간 뒤 수요 예측
재고 및 입고 최적화를 위해 매일 매장별 제품 수요 예측
->실시간이 필요 없는 대부분의 방식에서 활용 가능

Batch Serving Basic-장점

Jupyter notebook에 작성한 코드를 함수화한 후 주기적으로 실행하는 간단한 구조 !
Online Serving보다 구현이 수월하며, 간단함.
한번에 많은 데이터를 처리하므로 Latency가 문제되지 않음

Batch Serving Basic-단점
실시간으로 활용할 수 없음
Cold Start문제 : 오늘 새로 생긴 컨텐츠는 추천할 수 없음

Workflow Scheduler

  • 데이터 엔지니어링에서 자주 활용되는 Airflow
  • 리눅스의 Cron Job
  • Awesome Workflow Engines Github < 찾아보기

4. Online Serving vs Batch Serving

online vs Batch를 선택하는 기준 - Input 관점
데이터 하나씩 요청하는 경우 : Online
여러가지 데이터가 한꺼번에 처리되는 경우 : Batch

online vs Batch를 선택하는 기준 - Output 관점
inference output을 어떻게 활용하는지에 따라 다름

  • API 형태로 바로 결과를 반환해야 하는 경우 : Online
  • 서버와 통신이 필요한 경우 : Online
  • 1시간에 1번씩 예측해도 괜찮은 경우: Batch

처음부터 Online Serving(API형태)만들어야 하는 것은 아니고,
실시간 모델 결과가 어떻게 활용되는지에 대한 생각이 필요
(예측해도 활용이 되지 않는다면 Batch로 진행해도 무방)

Batch Serving의 결과를 Database에 저장하고,
서버는 Database의 데이터를 쿼리해서 주기적으로 조회하는 방식으로 사용할 수 있음

우선 Batch Serving으로 모델을 운영하면서 점점 API 형태로 변환

더 발전하기 위한 과제

  1. Rules of Machine Learning: Best Practices for ML Engineering
  2. Online Serving/ Batch Serving기업들의 Use Case찾아서 정리하기
    (어떤 방식으로 되어 있는지 이해가 되지 않아도 문서를 천천히 읽고 정리하기)
profile
-

0개의 댓글