[Pstage] Dataset

PangDae·2021년 8월 29일
0

Dataset

  • 디스크에 있는 데이터를 모델에 그냥 쓰기에는 적합하지 않은 경우가 많기 때문에 모델을 위한 Dataset으로 변환시켜줘야 한다.

  • 데이터는 여러가지가 있는데 모델에 적합한 데이터셋을 만드는 과정은 Deep Learning에 가장 기본이면서 중요한 과정이다.

Data_processing

  • Data science에서 가장 많은 시간이 소요되고, 힘든일은 바로 데이터 전처리이다.

  • 이유는 Data에는 정말 많은 종류가 있고 정리되어있지 않은 경우가 많기 때문에 모델에 적합한 데이터를 만들기에 많은 노력과 시간이 필요하기 때문이다.

image_Proprocessing의 종류

  • bounding box
    우리가 원하는 오브젝트를 정확히 찾기 위해서 사용한다.

-Resize

큰 사이즈는 계산해야할 양이 많아서 학습이 오래걸린다. 떄문에 작업의 효율화를 위해서 적당한 Reszie가 필요하다.

bias & variance

  • high variance

데이터의 많은 부분까지 모델이 커버하게 되면 high variance라고 한다.

  • high bias

가지고 있는 데이터를 충분히 학습하지 못했을 때 나오는 결과

Train/Validation

궁극적인 이유는 학습이 제대로 되었는지 안되었는지 확인하기 위해서 Train에 사용되지 않는 Data를 validation을 나누는 작업이 필요하다.

Data Augmentation

실제 모델이 사용되는 경우에서는 Train 데이터에 있지 않은 노이즈가 껴있는 경우가 많이 있다. 이럴때를 대비하여 모델을 로버스트하게 구축하기 위해서 데이터 어그멘테이션을 진행한다.

profile
개발이 하고싶습니다.

0개의 댓글