2025/5 논문이다. 이전에 읽은 Meta의 Coconut 논문을 연구한 논문이다. 이 논문이 Coconut 논문보다 나은 것 같다. superposition 관점이 재밌다.
superposition이라는 용어 선택이 탁월한 것 같다. word로 변환하지 않고 last hidden state를 되먹이는 COCONUT이 관측으로 파동함수를 붕괴시키지 않고 중첩 상태를 유지해 더 풍부한 정보를 사용하는 거라는 비유가 찰떡이다.
theory==practical 상황이 일치하진 않지만 적어도 이론적으로 이런 작동이 가능하긴 하다는 점을 보인 건 좋았다.
여전히 문제 상황이 쉽다. 특히 각 노드를 아예 개별 토큰으로 vocabulary에 추가하기까지 해서 문제 난이도가 많이 낮은 것 같은데, 그래서 (기존엔 O(n^2)인데) O(D)만에 문제 해결이 가능한 방법이라는 설명은 과장인 듯하다. 복잡한 환경에서도 통하는 설명일지는 불확실한 것 같다. 최소한 이런 작동이 가능하다는 것을 보인 점은 좋았다.
확실히 Coconut이나 Coconut-bfs가 강화학습이 많이 연상된다. 특히 각 노드를 개별 토큰으로 넣어 state 역할을 할 수 있게 만들어서 더욱 유사한 환경 같다.