최근 머신러닝 분야가 핫해지면서 Auto ML에 대한 관심도 나날이 높아지고 있는 것 같다. 나 역시 학부 수업시간에 배웠던 머신러닝 이론을 기반으로 이후 여러 AI 관련 프로젝트들을 하며 Auto ML의 중요성에 대해 더욱 깊이 깨닫는 중이다.
마침 SKT DEVOCEAN 에서 매달 열리는 Tech 세미나에서 Data Scientist 박병선님의 Auto ML 기반 기술과 적용 사례에 대한 발표가 진행되었다.
올해 3월부터 DEVOCEAN YOUNG 2기로 활동하면서 다양한 DEVOCEAN 관련 활동들을 해오고 있는데, 이번 기회를 통해 뒤늦은 후기이지만 나름대로 요약해본 7월 테크 세미나의 내용을 공유해보고자 한다.
1. 최적화 기법과 HPO
Hyper-Parameter Optimization process
- hyper parameter setting
- model 생성
- 학습
- 성과 측정 & 기록
- hyper parameter 재조정하며 위 과정 반복
Problem
- 반복적인 탐색과정으로 많은 시간과 비용이 소요됨
- 데이터의 양이 많아질수록, 모델의 복잡도가 증가할수록 연산 비용이 급격히 증가함
HPO technique
- Grid search: hyper-parameter의 탐색 범위를 제한한 후 모든 조합을 순차적으로 비교 탐색
- 구성이 쉽고 직관적
- 느림 -> 모든 구간을 전부 탐색하기에 비효율적
- Random search: hyper-parameter의 탐색 범위를 제한한 후 설정한 횟수만큼 임의의 조합을 탐색
- 탐색 범위가 넓을 경우 일반화된 결과가 나오지 않음
- 성능이 가장 높은 최적해로 점차 찾아가는 것이 아니라 단순히 탐색 시행을 통해 비교 분석해서 최적해를 찾아감
- Bayesian optimization: 이전 시행의 정보로부터 최적의 성과를 낼 수 있을 것 같은 hyper-parameter를 추론
- 단순한 search method에 비해 보다 적은 시도로 최적의 결과를 낼 수 있음
- 최적화 탐색의 속도가 느림
- Successive Halving Algorithm: 연속적으로 개별 모델에 대한 평가를 시행하여 절반은 남기고 나머지절반은 버림
2. 블랙박스 모델을 설명해보자, XAI
Why XAI?
Problem
- 복잡도가 증가한, Black-Box Model을 단순 예측이 아닌 해석하고 싶다.
- 다양한 알고리즘을 동일한 기준으로 해석하고 싶다.
XAI Technique
- Permutation Importance: 특정 feature 값들을 임의로 섞었을 때의 모형 성과를 비교
- 모델을 재학습할 필요가 없기 때문에 계산 비용의 장점이 있음
- 알고리즘 실행시마다 중요도는 다르게 계산될 수 있음
- Surrogate Model: 해석이 어려운 블랙박스 모델의 예측에 근사하도록 훈련된 해석가능한 가볍고 빠른 대리 모델을 활용함으로써 블랙박스 모델에 대한 설명력을 제공
- 해석이 가능하면 어떤 모델이든지 사용할 수 있음
- 대리 모형과 original 모델의 근사함을 판단하는 기준이 명확하지 않음
- LIME(Local Interpretable Model-agnostic Explanation): 설명하고 싶은 관측치에 초점을 맞추어서 해석 가능한 대리 모델을 활용
- 기존 학습 모델을 교체하더라도 로컬 대리 모델을 사용하여 동일한 설명력을 제공할 수 있음
- 해석에 큰 영향을 주는 이웃에 대한 적절한 정의는 해결하기 어려움
- SHAP(SHapley Additive exPlanations): Feature간의 상호작용을 면밀히 고려하기 위해 feature 조합의 모든 경우의 수를 따져봄
- 예측값(Y)를 결정하는 기준을 균형있게 해석할 수 있음
- Feature 수에 따라 연산 비용이 기하급수적으로 늘어남
- PDP(Partial Dependence Plot): 다른 feature는 고정하고 관심 feature를 구간별로 변화시키면서 target 예측의 변화를 관찰
- Feature의 값이 변할 때 모델(예측값)에 미치는 영향을 그래프를 통해 가시적으로 이해할 수 있음
- 그래프를 통해 표현하므로 표현의 한계를 가짐
기본적인 용어나 개념은 학부 수업에서 들었던 내용들이 있어 완전히 낯설지는 않았지만, 역시나 나에게는 쉽지만은 않은 내용이었던 것 같다...
DEVOCEAN에서는 이번 7월 세미나 이전에도 꾸준히 웹프론트엔드, 클라우드, iOS 등등 다양한 분야를 다루는 Tech 세미나를 진행하고 있다.
이 링크를 통해 지난 세미나 영상들을 확인해볼 수 있으며, DEVOCEAN에서 추후 열리는 세미나에도 신청해볼 수 있으니, 관심있는 사람들은 참여해보길 바란다.
글 재미있게 봤습니다.