Milan mobile traffic load (9,999 telecom grid), Guangzhou SMS data (2 predictions), London Twitter data (2 predictions) 로 구성위 3개의 dataset 은 모두 다른 char
본 논문에서 "model tuning"이라 함은 "fine-tuning"을 의미함"prompt tuning" to learn "soft prompts"few shot setting에서 GPT-3를 사용한 discrte prompt보다 더 좋은 성능여러 크기의 T5를 사
일러두기 해당 논문에서 ModelTuning 이라 하는 것은 finetuning과 같음: 모델의 parameter를 모두 학습하는 그 finetuning model parameter size 11 bln을 기준으로 Prompt Tuning이 finetuning의 성능과
Ma, F., Zhang, C., Ren, L., Wang, J., Wang, Q., Wu, W., ... & Song, D. (2022). XPrompt: Exploring the Extreme of Prompt Tuning. arXiv preprint arXiv:2
task oriented dialogue system: 문제 해결을 위함, 최대한 적은 대화로 이용자가 원하는 것을 이해하고 해결하는 것이 핵심open-domain dialogue system: 자유로운 대화, 최대한 긴 대화를 하는 것이 핵심reponse genera
Prompt Tuning의 장점?: PLM의 parameter를 다 학습할 필요 없이 소수의 parameter만 학습시켜도 괜찮은 성능을 내기 때문에!Prompt Tuning의 단점?: 학습되는 parameter가 너무 적죠? 그래서 convergence 오래 걸리죠?
pretraining 때 학습된 language에 대해 PLM이 cross lingual 성능이 괜찮음그런데 evaluation은 전체 언어의 극히 일부에 불과본 연구는 1600개 이상의 언어에 대해 evaluation 진행쉽지 않은 이유: corpus size가 작음
abstractive summarization 성능이 많이 좋아지기는 했는데, 그래도 hallucination이 많음output이 source와 관련 없는 것 등등이전 연구에서는 고치거나 원인을 파악하려고 했는데 크게 성공한 것 같지는 않음본 논문에서는 어떤 모델이 얼
BART: denoising autoencoder for pretraining seq2seq modeltraining strategy:(1) arbitrary noising function 사용해 text corruption(2) original text reconst
Abstract SimCSE: sentence embedding을 advance하는 simple한 contrastive learning framework 처음에는 input sentence에서 자신을 predict함 (contrastive objective) + sta
Prompt Tuning의 장점: memory와 storage를 아낄 수 있음이전까지 Prompt Tuning의 한계normal-sized pretrained model에서는 성능이 잘 안 나옴어려운(hard) labeling task 잘 안 됨 (범용성 미비)본 논문
Schick, T., & Schütze, H. (2020). Exploiting cloze questions for few shot text classification and natural language inference. arXiv preprint arXiv:200
knowledge extractionextracted knowledge의 quality와 relevance를 높이는 methodimplicit knowledge: GPT-3에서 tentative answers & supporting evidenceexplicit kno
Rossi, J., & Kanoulas, E. (2019, December). Legal Search in Case Law and Statute Law. In JURIX (pp. 83-92).
Yang, C., & Wang, J. (2020). A mathematical model for the novel coronavirus epidemic in Wuhan, China. Mathematical biosciences and engineering: MBE, 1
SoTA CV system은 predetermined object categories를 대상으로 학습되는데, generality나 usability에 문제가 있을 수밖에 없음(다른 visual concept를 특정하려면 labeled data가 필요하므로)대신, ima
Hier-SPCNet 논문 피인용수 14(Jan.3.2023 기준) Abstract network based similarity methods: e.g. PCNet 등은 판례 간의 인용례만을 고려하였음 그러나 실제로는 hierarchy of legal statute
Kumar, S., Reddy, P. K., Reddy, V. B., & Singh, A. (2011, March). Similarity analysis of legal judgments. In Proceedings of the fourth annual ACM Bang
Pretrained LM이 "world knowledge"를 잘 포착해냄으로써 NLP task에서 굉장히 좋은 퍼포먼스를 보이는 것은 사실임그러나 위와 같은 "world knowledge"는 모델 내부에(implicitly) NN의 파라미터로서 저장되어 있고, 더 많은
CitationYutao, P., Weihua, W., & Feilong, B. (2022, October). Interactive Mongolian Question Answer Matching Model Based on Attention Mechanism in the