2023/6, NeurIPS 논문이다.
자연어 concept을 program hypothesis 이전에 사용하는 게 새롭진 않은데 이걸 bayesian 방식으로 사용하는 게 핵심인 것 같다.
Human-like inductive bias를 넣는 의미를 도대체 모르겠다. 왜 사람 같은 편향을 넣는다는 거지? 학습을 더 잘해서? 그런데 사람의 평균 score을 따르도록 모델을 끼워맞추는 게 어째서 사람의 인지 편향을 학습하는 것이라고 할 수 있지? 고작 저 편향을 가지고 human-like라는 표현은 부적절하지 않나? 통계젹 편향을 학습시키는 것이 좋은 접근법도 아닌 것 같다. 또 저렇게 함으로써 더 부정확해지는 것도 있지 않을까?(실제로 human-like 대신 accuracy를 올릴 수 있다고도 언급된다) ‘사람 같은 실수’가 없었으면 더 잘할 수도 있었는데. 성능의 족쇄(upper bound) 역할도 있을지도. 주장(인지적 편향이 학습력을 향상시킨다)을 정당화하는 실험(task 종류)도 부족한 것 같다. 저자들이 딱히 사람의 인지적 편향은 무엇이고… 이런 고민을 해보질 않은 것 같다. 논문의 human-like라는 표현이 과하다고 생각된다.
Limitation에서 자연어가 모호하고 imprecise하다는 점을 자연어 자체적 한계로 지적하는데, 오히려 이것이야말로 concept을 자연어로 사용하는 핵심적인 장점이라고 생각한다. 모호하지만 표현력에 집중함으로써 그걸 바탕으로 precise한 python code를 만드는 게 핵심인 것이다. (논문에선 자연어 > python 변환이 자연어의 한계를 완화한다고 말하지만 오히려 그게 장점인 것이다)