[TIL] KoSBERT pre-trained model 자료 조사

하나·2022년 4월 6일

TIL

목록 보기

12/14

Sbert를 한국어에 적용하기 위해 한국어로 사전학습 된 모델들을 찾아봤다. 영어에 비해 생각보다 별로 없어서 좀 놀랐고... 또 한번 오픈소스 생태계와 새로운 기술에 대해서 생각해보는 시간을 가졌다. 나도 무언가 기여를 할 수 있다면 멋질 것 같다!

Sentence Bert, Sbert 란 무엇인가

기본적으로 BERT의 문장 임베딩 성능을 개선시킨 모델

BERT의 문장 임베딩을 응용하여 BERT를 파인튜닝한다.

SBERT의 학습 방법

1) 문장 쌍 분류 태스크로 파인 튜닝

대표적으로는 NLI(Natural Language Inferencing) 문제를 푸는 경우

2) 문장 쌍 회귀 태스크로 파인 튜닝

대표적으로 STS(Semantic Textual Similarity) 문제 푸는 경우

STS란 두 개의 문장으로부터 의미적 유사성을 구하는 문제를 말한다.

레이블은 두 문장의 유사도로 범위값은 0~5 이다.

NLI (Natural Language Inference), 자연어 추론

NLI는 두 개의 문장이 주어지면 수반(entailment) 관계인지, 모순(contradiction) 관계인지, 중립(neutral) 관계인지를 맞추는 문제

**STS(semantic textual similarity) 텍스트 의미적 유사성**

두 문장 사이의 semantic similarity(의미적 유사성)의 정도를 평가함

가장 공신력 있게 사용되고 있는 데이터셋

카카오브레인에서 공개한 **KorNLU , KorSTS Datasets**

https://github.com/kakaobrain/KorNLUDatasets
KLUE 프로젝트에서 공개한 KLUE 벤치마크셋

https://github.com/KLUE-benchmark/KLUE

klue (KLUE Benchmark)

한국어 SBERT 참고 자료들

Sentence Embeddings using Siamese BERT-Networks using ETRI KoBERT and kakaobrain KorNLU dataset

https://github.com/BM-K/KoSentenceBERT-ETRI

Sentence Embeddings using Siamese BERT-Networks using SKT KoBERT and kakaobrain KorNLU dataset

https://github.com/BM-K/KoSentenceBERT-SKT

using SKT KoBERT and kakaobrain KorNLU dataset, 사전학습 KLUE모델

https://github.com/jhgan00/ko-sentence-transformers

jhgan/ko-sbert-multitask · Hugging Face

Document Classification using KR-SBERT(서울대)

https://github.com/snunlp/KR-SBERT

사전학습 모델

https://github.com/snunlp/KR-BERT

Google Colaboratory

Sentence Transformer(영어)로 로드할 수 있는 모델 리스트

Models - Hugging Face

SBERT 코드

https://github.com/UKPLab/sentence-transformers

하나

이전 포스트

[TIL] 객체 지향 프로그래밍

다음 포스트