Sbert를 한국어에 적용하기 위해 한국어로 사전학습 된 모델들을 찾아봤다. 영어에 비해 생각보다 별로 없어서 좀 놀랐고... 또 한번 오픈소스 생태계와 새로운 기술에 대해서 생각해보는 시간을 가졌다. 나도 무언가 기여를 할 수 있다면 멋질 것 같다!
Sentence Bert, Sbert 란 무엇인가
기본적으로 BERT의 문장 임베딩 성능을 개선시킨 모델
BERT의 문장 임베딩을 응용하여 BERT를 파인튜닝한다.
대표적으로는 NLI(Natural Language Inferencing) 문제를 푸는 경우
대표적으로 STS(Semantic Textual Similarity) 문제 푸는 경우
STS란 두 개의 문장으로부터 의미적 유사성을 구하는 문제를 말한다.
레이블은 두 문장의 유사도로 범위값은 0~5 이다.
NLI는 두 개의 문장이 주어지면 수반(entailment) 관계인지, 모순(contradiction) 관계인지, 중립(neutral) 관계인지를 맞추는 문제
두 문장 사이의 semantic similarity(의미적 유사성)의 정도를 평가함
카카오브레인에서 공개한 **KorNLU , KorSTS Datasets**
KLUE 프로젝트에서 공개한 KLUE 벤치마크셋
https://github.com/BM-K/KoSentenceBERT-ETRI
https://github.com/BM-K/KoSentenceBERT-SKT
https://github.com/jhgan00/ko-sentence-transformers
jhgan/ko-sbert-multitask · Hugging Face
https://github.com/snunlp/KR-SBERT
사전학습 모델
https://github.com/snunlp/KR-BERT
SBERT 코드