Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

ㅇㅇ·약 20시간 전
0

논문리뷰

목록 보기
121/125

2024/3, COLM 논문이다.

https://docs.google.com/presentation/d/e/2PACX-1vQm83FevJ2HI5I9SnJ2cs1025kf4UcD1C6eRBzk6wpMrbrh2nSlW6zzC0zAEoJvDT--O8nQxqoI5GdP/pub?start=false&loop=false&delayms=10000


“Think” meta token을 사용하겠다는 시도가 종종 있었던 걸로 아는데 크게 아이디어가 다른 것 같지 않다. 이게 최초인가? parallel generation + teacher forcing 조합법이 논문의 의의인 것 같다.

작명이 마음에 안 든다. Think는 그렇다치고, talk은 대화가 아니라 think token에 condition 했을 때와 안 했을 때를 섞겠다는 건데 왜 talk란 이름을 붙였는지 이해가 안 되고 learn도 단순 강화학습 loss인데 너무 포괄적인 이름을 붙였다. think/talk/learn이라는 그럴듯한 마케팅을 위한 작위적인 네이밍이라는 생각을 떨칠 수 없다.

모델이 생각(attention 연산)할 시간/공간(token)적 여유/자원을 준 셈이니 성능이 향상되는 것은 직관적으로 당연한 일이라고 생각된다. 그래서 thought token 개수(repeat 횟수)가 많아질수록 더 좋아지는거고. 이 thought 영역도 고정된 개수가 아니라 모델이 조절시키는 연구도 있던 것 같은데…

이런 방식들은 CoT의 아종이라고 생각되는데(중간 추론이 자연어냐, 토큰이냐), 여기의 thought token도 결국 자연어 변환하려면 할 수 있는 걸 생각하면 논문이 CoT는 “out loud”고 Quiet STaR은 “quiet think”라고 구분한 것도 틀린 분류 같고, 심지어 이 방법은 사용되는 토큰 수가 하이퍼파라미터로 정해졌다는 점에서 오히려 더 나쁜 방법 같다. CoT+Quiet STaR가 CoT보다 성능 향상을 보인다고 하지만 그건 단순히 자원을 더 할당해주었기 때문 아닌가? ‘동일한’ 양의 자원을 CoT baseline에 더 할당해줬을 경우 어느 쪽이 성능이 높을지는 검증되지 않았으니 CoT only보다 좋냐는 확인되지 않은 질문 같다.

또 performance degradation은 "general and scalable reasoning" 방법이란 목표와 정면으로 배치되는 거 아닌가?

profile
학과최약체

0개의 댓글