2024년 5월, ICLR 2025 논문이다.
LLM으로 natural language intermediate concept을 만들고(여기선 task description) 그걸 바탕으로 python code를 만드는 게 이전에 읽었던 논문들과 방법론의 결이 같다. task description을 만들기 전에 한 단계를 더 추가해서 MoC처럼 여러 concept을 만들게 해서 그걸 바탕으로 다양화된 task description을 만드는 방식도 가능할 것 같다.
실패한 task도 관리하는 게 좋은 생각 같다. 덕분에 난이도를 점진적으로 올려서 학습할 수 있는 자동화 framework인 게 장점인 것 같다. 단순히 성공/실패 뿐 아니라 난이도도 관리할 수 있으면 새로운 task를 생성할 때 훨씬 효율적일 것 같다.
유사도 retrieval을 기반으로 비슷한 것을 계속 context로 뽑고 비슷한 걸 만드니까 사실 diversity에 한계가 있을 거라고 의심된다. 논문은 연산 budget만 받쳐주는 한 무한히 다양해진다고 주장하지만, 언젠가 포화될 것 같다.
MoI로 LLM을 사용할 때 human text corpora로 학습한 LLM에 이미 사람의 interestingness가 내재되어있다는 가정은 너무나 뇌피셜스럽다. 단순히 task의 redundancy를 filter out하기 위해 LLM을 사용했다는 표현이 더 정확하지 않을까.