Dataset and DataLoader

MA·2022년 7월 8일
0

https://tutorials.pytorch.kr/beginner/basics/data_tutorial.html

데이터셋 코드는 모델 학습 코드로부터 분리하는 것이 이상적이다.
같이 있으면 보기 너무 어려워서

Pytorch는 torch.utils.data.DataLoadertorch.utils.data.Dataset의 두 가지 데이터 기본 요소를 제공한다.

Dataset은 샘플과 정답(label)을 저장하고, DataLoaderDataset을 쉽게 접근할 수 있도록 iterable(순회 가능한 객체)로 감싼다.

파일에서 사용자 정의 데이터셋 만들기

커스텀 Dataset Class는 반드시 3개의 함수를 구현해야 한다.

  1. __init__
  2. __len__
  3. __getitem__

예시를 통해 자세히 알아보면

import os
import pandas as pd
from torchvision.io import read_image

class CustomImageDataset(Dataset):
    def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
        self.img_labels = pd.read_csv(annotations_file, names=['file_name', 'label'])
        self.img_dir = img_dir
        self.transform = transform
        self.target_transform = target_transform

    def __len__(self):
        return len(self.img_labels)

    def __getitem__(self, idx):
        img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
        image = read_image(img_path)
        label = self.img_labels.iloc[idx, 1]
        if self.transform:
            image = self.transform(image)
        if self.target_transform:
            label = self.target_transform(label)
        return image, label

__init__

__init__ 함수는 Dataset 객체가 생성(instantiate)될 때 한 번만 실행된다. 여기서는 이미지와 주석파일(annotation_file)이 포함된 디렉토리와 두가지 변형(transform)을 초기화합니다.

label.csv 파일은 다음과 같다.

tshirt1.jpg, 0
tshirt2.jpg, 0
......
ankleboot999.jpg, 9
def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
    self.img_labels = pd.read_csv(annotations_file)
    self.img_dir = img_dir
    self.transform = transform
    self.target_transform = target_transform

__len__

__len__함수는 데이터셋의 샘플 개수를 반환합니다.

def __len__(self):
    return len(self.img_labels)

__getitem__

__getitem__ 함수는 주어진 인덱스 idx에 해당하는 샘플을 데이터셋에서 불러오고 반환합니다. 인덱스를 기반으로 디스크에서 이미지의 위치를 식별하고, read_image``를 사용하여 이미지를 텐서로 변환하고, self.img_labels```의 csv데이터로부터 해당하는 정답(label)을 가져오고, (해당하는 경우) 변형(transform)함수들을 호출한 뒤, 텐서 이미지와 라벨을 Python 사전(dict)형으로 반환합니다.

def __getitem__(self, idx):
    img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
    image = read_image(img_path)
    label = self.img_labels.iloc[idx, 1]
    if self.transform:
        image = self.transform(image)
    if self.target_transform:
        label = self.target_transform(label)
    sample = {"image": image, "label": label}
    return sample

DataLoader로 학습용 데이터 준비

Dataset은 데이터셋의 특징(feature)을 가져오고 하나의 샘플에 정답(label)을 지정하는 일을 한 번에 한다. 일반적으로 샘플들을 "미니배치(minibatch)"로 전달하고, 매 에폭(epoch)마다 데이터를 다시 섞어서 과적합(overfit)을 막고, Python의 multiprocessing을 사용하여 데이터 검색 속도를 높이려고 한다.

DataLoader는 간단한 API로 이러한 복잡한 과정들을 추상화한 iterable(순회 가능한 객체)이다.

from torch.utils.data import DataLoader

train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)

DataLoader를 통해 순회(iterate)

DataLoader에 데이터셋을 불러온 뒤에는 필요에 따라 데이터셋을 순회(iterate)할 수 있다. 아래의 각 순회(iteration)는 (각각 batch_size=64의 특징(feature)과 정답(label)을 포함하는) train_featurestrain_labels의 묶음(batch)을 반환한다. shuffle=True로 지정했으므로, 모든 배치를 순회한 뒤 데이터가 섞인다. (데이터 불러오기 순서를 보다 세밀하게(finer-grained) 제어하려면 Samplers를 봐야 한다)

profile
급할수록 돌아가라

0개의 댓글