run_translation.py IndexError

AFL·2023년 4월 1일
0

MT 과제 에러 관련

[문제]
ko-en 데이터로는 train 이 잘 되었는데, de-ko 데이터로 하면 아래와 같은 에러가 자꾸 떴다. vocab size 와 toknizer 가 맞지 않을 때 나는 에러라고 하는데 출력을 해보면 둘 다 똑같이 나오는 것도 확인했다.

[해결]
DataTrainingArguments 의 max_source_length 가 default 로 1024 로 되어있었는데, input 으로 들어오는 데이터의 길이가 너무 길어서 일어난 일인 것으로 추정된다. max_source_length 를 128 로 하고 돌려보니 IndexError 가 난 곳이 돌아간다.

profile
공부해서 남주자

0개의 댓글