Time-Aware Language Models as Temporal Knowledge Bases

jihyelee·2023년 1월 18일

knowledge-edit

목록 보기

7/15

언어모델은 세상 지식의 저장소로 알려짐 (linguistic knowledge, factual knowledge를 저장)
- 관련하여 LAMA 논문이 유명 (Language Model as Knowledge Bases?)

대부분의 언어모델은 특정 순간에 수집된 데이터들을 기반으로 학습되나 많은 사실들은 시간에 따라 변화, 유용성에 한계
- averaging: 언어모델은 시간적인 메타데이터를 일반적으로 무시하기 때문에, 시간에 따라 달라지는 사실들을 단순히 평균화시켜(averaging effect) 결과적으로는 옳은 정답에 낮은 confidence를 갖게 됨
- forgetting: corpora가 점차 증가(최신 문서들이 예전 문서들보다 많음)함에 따라 문서가 부족해 상대적으로 덜 대표되는(underrepresented periods of time) 시간동안 유효했던 사실들을 잊어버림
- poor temporal calibration: 시간이 지나도 변하지 않는 사실들과 시간에 따라 자주 변하는 사실들에 대해 모델이 다르게 어려움을 인식해야 함 (시간에 따라 사실이 바뀔지 여부에 대해 모델은 시간감각을 지니고 있지 않음)

TempLAMA

시간이 지남에 따라 변하는 factual knowledge를 언어모델로부터 확인(probe)할 수 있는 진단 데이터셋(diagnostic dataset for evaluation)

lightweight modification to pretraining

타임스탬프와 텍스트를 함께 학습하는 간단한 기법 제안
Masked Language Modeling objective 사용: 파라미터는 텍스트와 시간의 representation을 학습
- Salient Span Masking: named entity와 date에 해당되는 부분을 salient span y로 두고 masking 및 학습 진행(이는 세상의 지식을 더욱 잘 반영하는 input을 구성하는데 도움을 줌)
시간대별로 균일하게 샘플링된 학습 코퍼스의 document로 사전학습 진행 (2010-2018 뉴스 데이터 CustomNews 활용)
- TempLAMA의 쿼리를 잘 이해하기 위해 1/1000의 비율로 TempLAMA 데이터도 함께 학습
- 2019-2020 데이터의 경우 미래 데이터에 대한 성능을 확인하기 위해 테스트에서만 사용

pretraining 기법이기 때문에 batch size가 2048, step size가 300K로 굉장한 양의 computation resource 필요 (environment effect)
단순한 접근법으로 Novelty가 떨어짐
TempLAMA는 WikiData를 활용해 synthetic하게 만들어졌기 때문에 불완전하거나 부정확한 사실들을 포함할 수 있음
ethical issues: 유명한 엔티티에 대한 일반적인 사실만을 모델에게 학습시켰기 때문에 스테레오타입을 강화하거나 공평하지 못한 결과를 야기할 위험 존재
연 단위로 시간을 나눴기 때문에 더 긴 혹은 더 짧은 시간 구분에 대한 탐구가 없었으며, during, before와 같은 시간을 내재하는 표현, 시간적 순서 및 사건 등에 대해서는 미고려

시간 범주를 포함해 사전학습을 진행했을 경우 이후 데이터가 내재적으로 겹치지 않는 시간대로 나뉘기 때문에 미래의 데이터를 활용해 fine-tuning 시 유리
- 처음부터 새로운 데이터셋까지 모두 포함해 매번 학습을 새로 진행하는 것은 costly
- 새로운 데이터에 대한 단순한 fine-tuning의 경우 이전의 데이터를 잊어버릴 가능성 높음
다른 발견들의 경우 대개 normal했지만, fact의 변화주기 또한 PLM이 학습하고 예측할 수 있다는 연구결과가 굉장히 흥미로움

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab