[AI 프로젝트] 한식 분류기(4/6)

otto_dev·2021년 12월 20일
0

4편쯤 쓰고 있으니 글이 두서 없다는 생각이 든다. 하지만 우리 프로젝트도 두서 없이 진행되었다. 사실에 기반한 글쓰기...

전체적인 프로젝트의 가닥을 잡았으니 실제 개발에 들어갈 차례다.
우리 팀은 AI 프로젝트 진행 과정에 대해 알아보았다. 여기

AI 개발 워크플로우

1. 데이터 준비

  • 데이터 수집 및 정리, labeling, image transformation, augmentation등이 여기에 해당한다.
  • AIHub에서 선택한 DataSet을 개발에 사용할 수 있도록 전처리 하는 과정이다.

2. AI 모델링

  • 준비한 데이터를 사용하여 task에 맞는 model을 구현하는 과정이다.
  • data의 어떤 특성이 있는지, 어떻게 활용할지, model의 구조는 어떻게 구성할지 등이 여기에 해당한다.

3. 시뮬레이션 및 테스트

  • 구현한 model이 얼마나 정확한지, 다양한 상황에서 제대로 작동하는지, 예외 상황이 고려되는지 등을 확인하는 과정이다.
  • 우리 프로젝트에서는 model이 음식을 얼마나 제대로 분류하는지, 음식이 아닌 이미지는 어떻게 처리되는지 등이 해당된다.

4. 배포

  • 웹이나 앱, 혹은 다양한 하드웨어에서 작동되도록 model을 포장하는 단계이다.
  • 우리 프로젝트는 평가를 위한 과제의 일종이므로 평가에 용이하도록 만든다.


개발 환경

지금껏 컴퓨팅 자원이 부족하다고 느껴본 적이 거의 없었으나 기계 학습이나 인공지능을 배우면서 컴퓨팅 자원이 부족함을 절실히 느꼈다. AIHub의 컴퓨팅 자원 지원을 받아볼까 하였지만, 신청 과정에서 문제가 생겨서 다른 방법으로 우회하기로 했다.

Google Colab과 Google Drive를 사용해서 개발하기로 했다.
다행히도 학교 계정을 사용할 경우 Google Drive을 무제한 용량으로 사용할 수 있다.

Dataset 준비

AIHub에서 DataSet을 local에 다운로드 받은 후, google Drive에 업로드 하는 방식을 이용했다. 이 때 몇가지 문제가 발생하였다.

<건강관리를 위한 음식 이미지>, <음식 이미지 및 영양정보 텍스트>의 DataSet 크기가 각각 841GB, 1587GB로 Download, Upload 하기에 용량이 매우 크다. 둘 모두를 사용하기 어렵다는 내부 평가가 있어서 <건강관리를 위한 음식 이미지>를 사용하기로 했다. 이유는 다음과 같다.

  1. 두 데이터셋 중에 용량이 작다.
  2. 한국인 다빈도 섭취 음식 뿐 아니라 과일, 채소, 양념, 향신료 데이터를 포함하고 있다.

크기가 16GB인 <한국 이미지(음식)>를 까맣게 잊었다...

어쨌든 약 일주일에 걸쳐 Google Drive에 DataSet을 업로드 하는데 성공하였다.

profile
공부 및 아카이브용 계정

0개의 댓글