From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

ㅇㅇ·2025년 7월 19일

목록 보기

123/125

2025/5 논문이다. 그 유명한 Yann LeCun 교수님이 공저자로 있는 논문인데 굉장히 구리다.

https://docs.google.com/presentation/d/e/2PACX-1vSYDNNJwprgdf8wRa9Wl8VId9Xl-bodhrgjC9KMbzx0ymR9iR7hRiplZTShP_o90OrU40BPUxSvCeZp/pub?start=false&loop=false&delayms=10000

Complexity나 Distortion을 굳이 concept 간의 위계/포함 관계를 가지고 측정하는 게 요상하지만, 최소한 정보 이론을 사용해 metric을 개발해보려는 의도는 알겠다.

그러나 가장 납득이 안 되는 점은 (transformer layer 내부 값도 아닌) 임베딩 벡터를 LLM의 concept으로 사용한 점이다. 아무리 transformer가 embedding도 학습을 한다지만, 이건 임베딩 벡터 자체에 이미 모든 concept의 위계/포함 관계가 내재하고 있다는 가정을 당연하다는 듯이 취하는 것 아닌가? 이건 LLM 논문이 아니라 임베딩 space 논문이다.

심지어 이런 ‘concept’은 사람과 LLM이 다른 게 당연할 수 밖에 없는데, 사람이랑 비슷한 개념을 llm이 습득하지 못하는건 모델(크기/종류)이 아니라 모달리티가 더 문제다. 사람은 눈으로 보고 갈매기, 펭귄 등이 날개가 있는 걸 본다. 그러니까 사람한테 새라는 개념들은 날개랑 떨어뜨려놓을 수 없다. 근데 llm은 개념을 그런식으로 학습하지 못한다. 오직 text corpus 내에서 함께 사용되는 방식으로만 학습할 수 있기 때문에, seagull이 wing이란 단어랑 함께 나와야만 이 연관 관계를 (통계적으로) 학습할 수 있고, 혹은 그러지 않더라도 seagull-bird가 함께 나와야 seagull-bird-wing의 연결고리를 찾을 수 있을 것이다. 색맹인 사람이 사과랑 피의 상관관계를 높게 칠 수 있을까? 결국 ‘개념’ 학습은 상징적 연결 관계를 구축하는 일인데, 이를 구축할 경험/정보가 다르면 당연히 다른 상징계가 구축될 수밖에 없다.

ㅇㅇ

학과최약체

이전 포스트

Training Large Language Models to Reason in a Continuous Latent Space

다음 포스트

From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

논문리뷰

Training Large Language Models to Reason in a Continuous Latent Space

OMNI-EPIC: Open-endedness via Models of human Notions of Interestingness with Environments Programmed in Code

0개의 댓글