2024/12, Meta의 Coconut 논문이다. 기대보다는 실망스럽다. 성능은 task에 유리하게 과장된 측면이 있다.
token이 아닌 latent 영역에서 연산하려는 시도라는 점에서 LCM과 의도가 일치한다고 생각한다. 그러나 LCM 쪽이 더 잘 generalize된 시도라고 생각되는데, LCM은 연산 단위가 sentence embedding이라 의미적으로 더 풍부하기도 하고, Coconut은 think token 수를 하이퍼파라미터로 정해놓기 때문에 한계가 있다고 생각한다.
special token으로 모드 변경 처리를 했다곤 해도 서로 범주가 다른 token embedding/last hidden embedding을 함께 처리해도 되나 의문이 든다.
CoT를 단계별로 think token으로 편입시키는 아이디어는 흥미롭다. 하지만 Coconut의 성과가 task 자체가 CoT single step을 하나의 임베딩에 담을 수 있는 수준의 (간단한) 문제라서 가능한 건 아닐까? 각 단계가 더 복잡하고 의미적으로 정보량이 많아도 이 방식이 유효할까? + GSM이 cot 친화적 데이터
thought generating 과정을 tree 관점에서 보고 확률을 value/reward로 보는 관점이 흥미롭다. 근데 이런 해석도 planning node(중간 thought)가 뻔하게 discretize되는 문제라서 통하는 것 아닌가? 더 일반적인 경우라면… > 강화학습 관점