Sentence-level relation extraction (RE) aims at identifying the relationship between two entities in a sentence. Many efforts have been devoted to this problem, while the best performing methods are still far from perfect. In this paper, we revisit two problems that affect the performance of existing RE models, namely entity representation and noisy or ill-defined labels. Our improved RE baseline, incorporated with entity representations with typed markers, achieves an F1 of 74.6% on TACRED, significantly outperforms previous SOTA methods. Furthermore, the presented new baseline achieves an F1 of 91.1% on the refined Re-TACRED dataset, demonstrating that the pretrained language models (PLMs) achieve high performance on this task. We release our code to the community for future research.
KLUE 대회를 대비하여 Relation Extraction task에서 데이터의 특성을 더 잘 반영할 수 있는 방법론 중 하나를 공부하기 위해서이다.
typed entitiy marker를 이용해 RE task의 SOTA를 달성하는 새로운 방법론을 제안하였다.
기존의 RE task를 해결하는 방법들은 input 데이터가 가진 정보(entitiy name 등)을 제대로 활용하지 않았고 노이즈가 섞인 데이터가 다수 있었다.
외부의 직접적인 정보를 plm에 집어넣어서 학습시키거나 관련 내용으로 사전 학습된 adapter를 붙여서 학습시켰다.
raw text 뿐만 아니라 옆의 side information인 names, spans, types같은 정보를 함께 활용하며 성능을 끌어올렸다. 또한 기존에 사람이 라벨링한 데이터들을 보완하는 새로운 baseline을 제안하여 이후 연구를 도왔다.
sentence | subject_entitiy | object_entitiy | label |
---|---|---|---|
하비에르 파스토레는 아르헨티나 클럽 타예레스의 유소년팀에서 축구를 시작하였다. | { "word": "하비에르 파스토레", "start_idx": 0, "end_idx": 8, "type": "PER" } | { "word": "아르헨티나", "start_idx": 11, "end_idx": 15, "type": "LOC" } | 17 (per:origin) |
[SUBJ-per]는 [OBJ-origin] 클럽 타예레스의 유소년팀에서 축구를 시작하였다.
[E1] 하비에르 파스토레 [/E1]는 [E2] 아르헨티나 [/E2] 클럽 타예레스의 유소년팀에서 축구를 시작하였다.
@ 하비에르 파스토레 @는 # 아르헨티나 # 클럽 타예레스의 유소년팀에서 축구를 시작하였다.
<S: per> 하비에르 파스토레 </S : per>는 <O:origin> 아르헨티나 </O:origin>*클럽 타예레스의 유소년팀에서 축구를 시작하였다.
@ per 하비에르 파스토레 @는 # ^ origin ^ 아르헨티나 # 클럽 타예레스의 유소년팀에서 축구를 시작하였다.
모든 special token의 embedding은 random initialized 되었고 fine-tuning되는 동안 업데이트 된다.
향상된 entitiy representation 방법을 적용하여 기존을 뛰어넘는 baseline을 세웠다.
KLUE
RoBERTa