[DACON] 도배 하자 유형 분류 AI 경진대회 (1): EDA

정준환·2023년 4월 26일
0

PyTorch는 사용할 줄 알지만, MNIST 분류와 같은 단순한 이미지 분류조차 해본 적 없습니다. 배워가는 과정에 있으므로 포스팅 내용에서 잘못된 내용이 있을 수 있습니다.

https://dacon.io/competitions/official/236082/overview/description

데이콘에서 벽지 도배 이미지를 보고 어떤 유형의 하자인지 분류하는 대회를 진행 중입니다. (~ 5.22)
해당 대회를 진행하며 이것저것 정리해 보고자 합니다.


EDA

먼저 class 별로 가지고 있는 이미지의 개수를 살펴봤다. 자체적으로 진행한 그래프도 있는데, 404Vector 님이 더 예쁘게 잘 만드셔서 가져왔다.


(출처: https://dacon.io/competitions/official/236082/codeshare/8189)

데이터가 상당히 편향되어 있음을 확인할 수 있다. 아마 이 편향을 어떻게 해결하는지가 해당 대회의 키가 될 것 같다.


다음으로 이미지를 직접 살펴봤다. 이미지의 경우 Augmentation이 굉장히 중요하다고 들었는데, 어떤 전략을 수립해야 할지 확인하고자 했다. 몇 가지 이미지를 직접 뜯어서 살펴봤는데, 해당 이미지가 어떤 기준으로 분류되었는지 스스로 명확히 구분할 수 없어서 일단 넘어갔다.

예시로 좌측이 가구수정, 우측이 걸레받이수정 class의 이미지다. 무엇을 기준으로 구분해야 할까...

가구수정걸레받이수정

Baseline을 작성한 뒤에 다시 돌아와서 생각해 보자. 도배 하자에 대한 domain knowledge가 있으면 쉽게 접근할 수 있을 것 같긴 하다.


마지막으로 이미지의 크기를 확인해 봤다. 가로, 세로를 나눠서 픽셀 수를 찍어봤다. 대충 600픽셀 정도에 많이 분포되어 있음을 확인할 수 있었다.

이미지 사이즈가 엇나가는 부분은 없어 보인다. 다만 600 by 600 정도의 이미지를 처리하기 위해 사이즈를 줄여야 할지, 아니면 이 정도 사이즈의 이미지를 사전 학습 한 모델을 사용할지는 추후에 고민해 봐야 할 문제일 것 같다.

profile
정준환

0개의 댓글