기존 문제점 BERT는 Pre-trained + finetuning 하여 사용 Pre-trained는 메모리 용량 및 프로세스 성능 등 많은 자원을 소요하는 문제 DistilBERT 개요 DistilBERT는 기존 BERT-base 보다 40% 가볍고, 60% 빠름
DoRA