# relation extraction

5개의 포스트
post-thumbnail

Paper Review #6 - DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population

Zhang, Ningyu, et al., "DeepKE: A Deep Learning Based Knowledge Extraction Toolkit for Knowledge Base Population", arXiv preprint arXiv:2201.03335, 2022 수 많은 데이터 속에서 필요한 정보만을 추출하는 IE(Information Extraction) 기술이 발전을 거듭하고 있다. IE 기술의 발전에 따라 대규모의 Knowledge Base 역시 구축 되고 있는데, 지식 베이스는 현실 세게에서 지식 집약적인 업무에 많은 도움을 준다. 따라서 KBP(Knowledge Base Population) 또한 각광을 받고 있는 분야 중 하나인데, KBP라 함은 텍스트로부터 지식을 추출해 KB의 손실된 부분을 완성하는 작업이다. 원문에서 entity와 관계를 추출하고, 이것들을 KB에 연결시켜주는 IE 작업은 여기서도 용이하게 쓰이고 있다. Named Entity Rec

2023년 2월 15일
·
0개의 댓글
·
post-thumbnail

KLUE 회고

목적 한 문장에서 2개의 Entity가 주어진다. 이 2개의 Entity 사이 관계를 구하는 것이 이번 대회의 목표였다. 결과 리더보드 GitHub 링크 https://github.com/idj7183/level2-klue-level2-nlp-08 시도했던 것에 대한 결과 Model 및 Trainer 변경 Model 변경 Model의 Classifier를 변경시켜보고 싶어서 Classifier를 내가 원하는 대로 변형시켜보았다. Model 변경에 매우 많은 힘을 쏟았지만, 에러만 뜨고, 가끔 수행되도 성능이 0 ~ 10을 벗어나지 못했다. Trainer 변경 Trainer를 내가 원하는 방식으로 변경시키고 싶었다. 특히 Loss

2022년 4월 14일
·
0개의 댓글
·
post-thumbnail

3주차 2일째

무조건 해야 할 것 Classifier Layer가 2층이다. 저번 이미지 분류 대회에서 Classifier Layer가 1개인 것이 가장 좋은 성능을 냈었는데, 이번에도 그렇지 않을까? 한번 적용해보자 [CLS] 토큰에서 나온 값을 LSTM에 한 번 더 정제시킨 다음 Classifier Layer에 추가시키는 것은 어떨까? 보니까 Classifier Layer를 통과시키지 않고 그냥 LSTM에서 처리를 끝내는 Case도 존재하는 것 같다. 만약 제출 기회가 있다면 시도해보자 내가 봤을 때 Punctuation이 가장 좋은 성능을 내는 것은 그 부분에 집중한다 + 그 단어가 어떤 단어인지 설명해준다의 이유인 것 같다. 예를 들어, Object가 로빈슨일 경우, Punctuation을 통해 이 로빈슨이 Person이라는 것을 알려주게 된다. 또한, 이 때 활용하는 Person도 이미 Vocab에 있는 단어이기 때문에 단어 유추에 도움을 주는 것이 아닐까? 해당 부

2022년 4월 5일
·
0개의 댓글
·
post-thumbnail

3주차 1일 수행내용

무조건 해야할 것 [SUB], [OBJ]가 아닌 Subject Type을 활용하여 [SUB;{subject_type}]으로 처리하면 더 좋은 결과가 발생하지 않을까? 수행할 이유 : [SUB], [OBJ]가 좋은 결과가 나온 것은 그 단어에 조금 더 집중했기 때문이라고 생각한다. 만약 집중할 때, Type에 대해서도 집중한다면 더 좋은 결과가 나오지 않을까? 라는 생각으로 수행해보았다. 수행한 것 GitHub 코드가 현재로써는 너무 Conflict가 많이 날만한 구조이다. 일단 구조를 변경시켜서 충돌을 최대한 막는 구조로 변경하고, 피어세션 때 활용 가능성을 얘기해 봐야할 것 같다. 이 부분에 대해서는 일단 나중에 코드를 깔끔히 할 때 다시 논의해보는 것으로 하였다. 앞으로 협업을 할 때에는 처음부터 이런 것을 다 정하고 가야할 것 같다. 중간에 합치려니 모두가 힘들고, 협업 도구가 오히려 해가 된다는 얘기를 들었던 것 같은데 실제로 그렇게

2022년 4월 4일
·
0개의 댓글
·
post-thumbnail

1, 2주차 정리

1주차 때 모델 변경을 많이 시도했는데, 잘 수행되지 않고 가끔씩 수행되더라도 성능이 0에 가까워 자괴감이 많이 들었었다. 저번 대회 때 정리가 매우 중요하다는 것을 알았으면서 그 자괴감 때문에 무언가를 기록해야겠다는 생각을 하질 못했다. 이런 이유로 1, 2주차 때 기록을 자세하게 해야했지만, 해야겠다는 마음가짐과 실제 작업물이 나오지 않았다는 괴리감 때문에 해야할 것을 하지 못했다는 죄악감 때문에 더 괴로웠던 것 같다. 나중에 피드백 때 강하게 해야할 부분 1주차 1일째 강의 듣기 이전 대회때는 강의를 너무 띄엄띄엄 들어서 해당 내용을 잘 활용하지 못했던 것 같다. 따라서, 이번에는 강의를 먼저 쫙 들은 다음에 대회에 참여해보았다. 확실히 강의에 대한 부담감이 없어서 그런지 이 방법이 매우 좋은 것 같다. 협업 방식 지정 GitHub의 Pull Request와 Issue란을 잘 활용하고자 했다. 1주째는 각자의 방법으

2022년 4월 4일
·
0개의 댓글
·