기존 문제점 BERT는 Pre-trained + finetuning 하여 사용 Pre-trained는 메모리 용량 및 프로세스 성능 등 많은 자원을 소요하는 문제 DistilBERT 개요 DistilBERT는 기존 BERT-base 보다 40% 가볍고, 60% 빠름
DoRA
Introduction 최근 언어 모델은 거대한 사이즈와 Instruction Data를 통한 학습으로 우수한 성능을 자랑한다 하지만,
LLM 기반 합성 데이터 Survey