https://tutorials.pytorch.kr/beginner/basics/data_tutorial.html
데이터셋 코드는 모델 학습 코드로부터 분리하는 것이 이상적이다.
같이 있으면 보기 너무 어려워서
Pytorch는 torch.utils.data.DataLoader
와 torch.utils.data.Dataset
의 두 가지 데이터 기본 요소를 제공한다.
Dataset
은 샘플과 정답(label)을 저장하고, DataLoader
는 Dataset
을 쉽게 접근할 수 있도록 iterable(순회 가능한 객체)로 감싼다.
파일에서 사용자 정의 데이터셋 만들기
커스텀 Dataset Class는 반드시 3개의 함수를 구현해야 한다.
__init__
__len__
__getitem__
예시를 통해 자세히 알아보면
import os
import pandas as pd
from torchvision.io import read_image
class CustomImageDataset(Dataset):
def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
self.img_labels = pd.read_csv(annotations_file, names=['file_name', 'label'])
self.img_dir = img_dir
self.transform = transform
self.target_transform = target_transform
def __len__(self):
return len(self.img_labels)
def __getitem__(self, idx):
img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
image = read_image(img_path)
label = self.img_labels.iloc[idx, 1]
if self.transform:
image = self.transform(image)
if self.target_transform:
label = self.target_transform(label)
return image, label
__init__
__init__ 함수는 Dataset 객체가 생성(instantiate)될 때 한 번만 실행된다. 여기서는 이미지와 주석파일(annotation_file)이 포함된 디렉토리와 두가지 변형(transform)을 초기화합니다.
label.csv 파일은 다음과 같다.
tshirt1.jpg, 0
tshirt2.jpg, 0
......
ankleboot999.jpg, 9
def __init__(self, annotations_file, img_dir, transform=None, target_transform=None):
self.img_labels = pd.read_csv(annotations_file)
self.img_dir = img_dir
self.transform = transform
self.target_transform = target_transform
__len__
__len__함수는 데이터셋의 샘플 개수를 반환합니다.
def __len__(self):
return len(self.img_labels)
__getitem__
__getitem__ 함수는 주어진 인덱스 idx
에 해당하는 샘플을 데이터셋에서 불러오고 반환합니다. 인덱스를 기반으로 디스크에서 이미지의 위치를 식별하고, read_image``를 사용하여 이미지를 텐서로 변환하고,
self.img_labels```의 csv데이터로부터 해당하는 정답(label)을 가져오고, (해당하는 경우) 변형(transform)함수들을 호출한 뒤, 텐서 이미지와 라벨을 Python 사전(dict)형으로 반환합니다.
def __getitem__(self, idx):
img_path = os.path.join(self.img_dir, self.img_labels.iloc[idx, 0])
image = read_image(img_path)
label = self.img_labels.iloc[idx, 1]
if self.transform:
image = self.transform(image)
if self.target_transform:
label = self.target_transform(label)
sample = {"image": image, "label": label}
return sample
DataLoader로 학습용 데이터 준비
Dataset
은 데이터셋의 특징(feature)을 가져오고 하나의 샘플에 정답(label)을 지정하는 일을 한 번에 한다. 일반적으로 샘플들을 "미니배치(minibatch)"로 전달하고, 매 에폭(epoch)마다 데이터를 다시 섞어서 과적합(overfit)을 막고, Python의 multiprocessing
을 사용하여 데이터 검색 속도를 높이려고 한다.
DataLoader
는 간단한 API로 이러한 복잡한 과정들을 추상화한 iterable(순회 가능한 객체)이다.
from torch.utils.data import DataLoader
train_dataloader = DataLoader(training_data, batch_size=64, shuffle=True)
test_dataloader = DataLoader(test_data, batch_size=64, shuffle=True)
DataLoader를 통해 순회(iterate)
DataLoader
에 데이터셋을 불러온 뒤에는 필요에 따라 데이터셋을 순회(iterate)할 수 있다. 아래의 각 순회(iteration)는 (각각 batch_size=64
의 특징(feature)과 정답(label)을 포함하는) train_features
와 train_labels
의 묶음(batch)을 반환한다. shuffle=True
로 지정했으므로, 모든 배치를 순회한 뒤 데이터가 섞인다. (데이터 불러오기 순서를 보다 세밀하게(finer-grained) 제어하려면 Samplers를 봐야 한다)