# Data augmentation

Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification
Guiding Generative Language Models for Data Augmentation in Few-Shot Text Classification , EMNLP 2022

PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks
PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks, ACL 2022

Data Augmentation for Scene Text Recognition
STR 연구는 현재 모델중심적으로 이루어지고 있다. 한정적으로 수집된 데이터 내에서 학습을 진행하게 되면서 distribution shift가 쉽게 일어나게 된다. 이런 distribution shift를 해결하기 위한 방법 중 하나인 data augmentation에
[NLP]. 오타 생성기 만들기 : Text Noise Augmentation
오타는 누르고자 하는 것을 잘못 눌렀을때 발생한다.누르고자 하는 글자 주변(키보드)단어들을 랜덤으로 섞어주면 오타 생성기가 만들어지지 않을까?주변 키보드 문자를 잘못 입력함.쌍자음으로 잘못 입력함.한영키를 잘못누름랜덤으로 교체해주는 함수 구현\*\* mod_num :
Boostcamp - 221012 (2) Data augmentation
딥러닝은 데이터가 무조건 많이 필요함. 근데 모두 레이블 되어있는 거대 데이터를 얻기란 쉽지 않음.

Data augmentations- AutoML
AutoML이란? 시간 소모적이고 반복적인 기계 학습 모델 개발 작업을 자동화하는 프로세스이다. AutoML의 발전에 따라 NAS(neural architecture search)같은 모델링에서 AutoML을 적용하는 등 여러 형태의 AutoML이 등장하고 있는데 이런

[2019.07] Benchmarking Robustness in Object Detection: Autonomous Driving when Winter is Coming
1.Introduction model의 robustness를 평가하기 위한 measure/metric, benchmark dataset을 정의해야 한다. Improving corruption robustness preprocessing 단계에서 denosing ->

[Paper Review]RandAugment: Practical automated data augmentation with a reduced search space
해당 포스트에서는 Data Augmentation 기법 중 하나인 RandAugment에 대해서 다룹니다.
NVIDIA:04 Data Augmention
NVIDIA 04: Data Augmentaion NVIDIA의 Fundatmentals of Deep Learning:04 Data Augmentation 리뷰를 위한 글이다.

Problem Setting and Regularization
training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 cho
torchvision의 데이터 augmentation 기법들 살펴보기
다량의 양질의 데이터는 좋은 딥러닝 모델을 만드는데 필요조건입니다. 그런데 실제 산업 현장에서는 데이터가 충분히 확보 되어있지 않거나 명확히 분류되어있지 않은 경우가 많습니다. 특히, 공정과정에서 발생하는 이미지는 이런 경우가 비일비재합니다. 그러므로, 모델에 학습 시

CoDA: Contrast-Enhanced and Diversity-Promoting Data Augmentation for Natural Language Understanding (ICLR / 2021)
back-translation에 adversarial training을 sequential stacking하고 consistency loss와 contrastive loss를 이용하여 informative한 augmented data augmentation 기법을 제안

Adversarial Mixing Policy for Relaxing Locally Linear Constraints in Mixup (EMNLP / 2021) paper review
Mixup에서의 locally linear constraint를 완화하기 위하여 Adversarial Mixing Policy를 제안

Data Augmentation
일반적으로 딥러닝 모델을 학습시키기 위해서는 데이터셋이 필요하다.대표적인 이미지 데이터셋인 이미지넷(ImageNet)은 약 1,400만 장의 이미지를 가지고, CIFAR-10도 6만장의 이미지 데이터를 가지고 있다.문제는 큰 규모의 데이터셋을 만드는 것은 큰 비용이 드
Data Augmentation
Data Augmentation은 데이터셋을 여러 가지 방법으로 증강시키는(augment) 방법입니다. 우리는 Data Augmentation을 통해서 학습 데이터셋의 규모를 키울 수 있습니다. Data Augmentation을 통해 데이터셋의 규모가 커지면 overf

[정리] Clinical AI: Low Resource Technique, Tasks, Survey, Research, Data, Model, ...
정리 : Low Resource Technique(Data Augmentation), Representation, Survey, Model, Data, Other Technique.

[논문리뷰]A Survey on Recent Approaches for Natural Language Processing in Low-Resource Scenarios(ACL Anthology, Jun 2021)
NLP 분야 task를 진행할 때, 데이터가 모자란 상황에서는 어떻게 접근해야 할까요?