머신러닝 엔지니어 실무-Section2-3

Smiling Sammy·2022년 3월 7일
0

인프런 Chris Song님 강의 정리

Section2: 코드 품질, 데이터 검증, 모델 분석

머신러닝 모델 분석 What if tool

What if Tool 소개

  • 모델 분석이 필요한 이유
    • 머신러닝 모델을 디버깅하기 어려움
    • 데이터의 품질에 따라 프로젝트 성공 여부가 달림

  • 소개
    • What if tool 도구는 훈련된 ML모델의 동작을 분석하는 시각화 기반 도구

탭 종류

  • what if tool 인터페이스는 로드된 모델의 종류에 따라 세 개의 탭으로 구성됨
    • Datapoint Editor
    • Performance & Fairness
    • Feature

Datapoint editor

  • 각각의 데이터 포인트를 우측 시각화 화면에 적용될 수 있다
  • 해당 피처를 변경했을 때 예측 결과의 변경을 확인할 수 있다

Performance & Fairness

  • 각 피처의 슬라이스 한 모델의 성능을 확인할 수 있음
    ex. 성적 구간 별 모델 정확도, 나이대별 모델 정확도
  • 카테고리별 thresholding을 할 수 있음
    • F1 Score, Recall, Precision 값이 나옴(classification 문제에서 유용)
  • Fairness의 경우 얼마나 데이터가 고르게 분포되어 있는지 알 수 있음

Feature

  • 높은 수준에서 피처의 분포를 확인할 수 있음
  • 데이터셋의 특성을 확인할 때 유용함
  • TFDV의 통계 결과와 매우 유사함

실습

  • 코드
  • 특징
    • 간단한 시각적 분석 가능
    • 카테고리별 시각화를 할 수 있음
    • 피처와 가장 가까운 Counterfactual을 찾을 수 있음
      • 가장 가까운 Counterfactual은 다른 분류를 가진 가장 유사한 데이터 포인트를 의미함
      • L1, L2 distance를 기반으로 데이터 포인트 간의 유사성을 계산
    • 이미지 데이터 분류 가능

기본 예제

  • 피처와 가장 가까운 Counterfactual (예제는 L2 distance 기준)
  • 부분 의존성 plot (나이에 따라 소득이 올라가는 모습 확인 가능)
  • threshold 조정하는 모습
  • dataset 분포 확인

이미지 분류 예제

  • Datapoint, Counterfactual values
  • Smiling 기준 예측
  • 안경 유/무 기준 데이터 분류

참고

profile
Data Scientist, Data Analyst

0개의 댓글