PyTorch: torchtext.legacy.data.Field

danbibibi·2022년 5월 20일
0

PyTorch 🔥

목록 보기
17/20

PyTorch: torchtext.legacy.data.Field

torchtext.legacy.data에는 필드(Field)라는 도구를 제공한다. 필드란 텐서로 표현 될 수 있는 텍스트 데이터 타입을 처리한다. 필드를 통해 앞으로 어떤 전처리를 할지 정의할 수 있다.

사용법

from torchtext.legacy import data 

data.Field(sequential=True,
			use_vocab=True,
            tokenize=str.split,
            lower=True,
            batch_first=True,
            fix_length=20)

sequential : 순차 데이터 여부. False이면 토큰화가 적용되지 않음. (default: True)
use_vocab : Vocab 개체 사용 여부. False인 경우 이 필드의 데이터는 이미 숫자여야 함. (default: True)
tokenize : 사용될 토큰화 함수 (default: string.split)
lower : 영어 데이터 소문자화 (default: False)
batch_first : 미니 배치 차원을 맨 앞으로 하여 데이터를 불러올 것인지 여부 (default: False)
is_target : target variable 여부 (default: False)
fix_length : 최대 허용 길이. 이 길이에 맞춰 패딩(Padding) 작업 진행

profile
블로그 이전) https://danbibibi.tistory.com

0개의 댓글