Data augmentations

쩡쓰·2022년 5월 27일

데이터분석

목록 보기

5/6

현재 우리가 사는 시대는 데이터가 많다 못해 넘쳐흐른다. 하지만, 막상 그 데이터들을 정제하기 위해선 많은 작업들이 필요하다. 막대한 데이터들을 원하는 데이터셋으로 만들기 위해선 너무 많은 인력이 필요하다. 하지만, 모델에 매개변수는 아주 큰 것에 비해 데이터 양이 작다면 overfitting 의 문제가 발생한다. overfitting 이 발생해버리면 모델을 사용할 수 없기때문에, 이런 문제 들을 해결하기 위해 Data Augmentation에 대한 연구가 활발히 이루어지고 있는 것 같다.

Data Augmentation은 데이터들을 다양한 테크닉을 통해 데이터를 수를 늘리는데에 많은 비용과 시간이 들기 때문에 기존의 데이터를 이용해 인위적으로 데이터들을 만드는 방법이다. Data Augmentation 은 이미지 뿐만 아니라, 자연어, 다양한 자료에 적용된다.
그 중에 이미지에 대해서 간단히 알아보면, 쉽게 생각하면 이미지를 임의로 변형을 한다고 생각하면 될 것 같다. 하지만, 그 본질의 의미는 변해버리면 안되기 때문에 본질의 의미가 변하지 않는 선에서 적당히 작업을 해야한다.
Data Augmentation for Computer Vision 에서 다양한 기능들이 있는데 해당 기능들을 사용하면 쉽게 작업할 수 있다. 예를 들면, 임의로 이미지를 조각내어 자르기도하고, 두 이미지를 임의로 섞어버리는 식이다. 현재까진 이미지에 대해서만 작업을 해봤는데, 데이터에 따라 Augmentation기법은 다양하기 때문에 다른 형태의 데이터들도 기회가 된다면 다뤄보고 싶다.

참고자료 1)
<고려대학교 산업경영공학부 데이터마이닝 및 품질애널리틱스 2021.01.22 발표>
http://dmqm.korea.ac.kr/activity/seminar/307
참고자료 2)
<Image Data Augmentation 관련 자료들>
https://paperswithcode.com/methods/category/image-data-augmentation
참고자료 3)
<Augmenting Data with Mixup for Sentence Classification: An Empirical Study_2019.05.22 논문>
https://www.semanticscholar.org/paper/Augmenting-Data-with-Mixup-for-Sentence-An-Study-Guo-Mao/e601c09867dfbee176333067b2e79b8548e993a9

쩡쓰

어제보다 낫은 오늘, 오늘보다 낫은 내일

이전 포스트

crop, resize, padding

다음 포스트

Data augmentations

데이터분석

crop, resize, padding

GUI by Python

0개의 댓글