2025/2 논문으로 읽다가 너무 별로라서 중단한 논문이다.
Auto Regressive 방법 대신 Transformer에 Masked Language Modeling을 사용해 Diffusion 하려는 시도.
8B 모델을 만들어서 LLaMA3 8B와 경쟁적인 성능.
그런데 방법이 너무 간단하고, 내가 리뷰한 Diffusion-EAGS (Conditional [MASK] Discrete Diffusion Language Model, 2024) 논문의 하위 호환이라 이게 어떻게 2025년 논문이지 싶어 읽던 중에 openreview 검색해보니 아니나 다를까 참신하지 않다는 이유로 reject당한 논문이었다. Diffusion-EAGS는 단순히 masking으로 diffusion하는 걸 넘어 어느 mask를 diffusion할지 선택하는 것을 entropy 기반으로 결정한다.
논문의 유일한 의의라면 8B 사이즈에서 mask diffusion 방식이 작동한다는 것을 보인 것.