부스트캠프 week9 day4 BERT 기반 분류 모델

Dae Hee Lee·2021년 9월 29일

BoostCamp_level2_Pstage_KLUE

목록 보기

5/8

BERT 기반 단일 문장 분류 모델 학습

문장 분류 Task

감정분석(Sentiment Analysis)
• 문장의 긍정 또는 부정 및 중립 등 성향을 분류하는 프로세스
• 문장을 작성한 사람의 느낌, 감정 등을 분석 할 수 있기 때문에 기업에서 모니터링, 고객지원, 또는 댓글에 대한 필터링 등을 자동화하는 작업에 주로 사용
• 활용 방안
• 혐오 발언 분류:댓글,게임 대화 등 혐오발언을 분류하여 조치를 취하는 용도로 활용
• 기업 모니터링:소셜,리뷰 등 데이터에 대해 기업이미지, 브랜드 선호도,제품 평가 등 긍정 또는 부정적 요인을 분석
주제 라벨링(Topic Labeling)
• 문장의 내용을 이해하고 적절한에 범주를 분류하는 프로세스
• 주제별로 뉴스 기사를 구성하는 등 데이터 구조화와 구성에 용이
• 대용량 문서 분류 : 대용량의 문서를 범주화
• VoC(Voice of Customer) : 고객의 피드백을 제품 가격, 개선점, 디자인 등 적절한 주제로 분류하여 데이터를 구조화
언어 감지(Language Detection)
• 문장이 어떤 나라 언어인지 분류
• 주로 번역기에서 정확한 번역을 위한 타겟팅 작업
• 활용 방안
번역기, 데이터 필터링(타겟 언어 외에는 필터링함)
의도 분류(Intent Classification)
• 문장이 가진 의도를 분류하는 프로세스
• 입력 문장이 질문, 불만, 명령 등 다양한 의도를 가질 수 있기 때문에 적절한 피드백을 줄 수 있는 곳으로 라우팅 작업 가능
• 활용 방안
챗봇 : 문장의 의도인 질문, 명령, 거절 등을 분석하고 적절한 답변 제공

문장 분류를 위한 데이터

Kor_hate
• 혐오 표현에 대한 데이터
• 특정 개인 또는 집단에 대한 공격적 문장
• 무례, 공격적이거나 비꼬는 문장
• 부정적이지 않은 문장
Kor_sarcasm
• 비꼬지 않은 표현의 문장
• 비꼬는 표현의 문장
Kor_sae
• 예/아니오로 답변 가능한 질문
• 대안 선택을 묻는 질문
• Wh- 질문 (who, what, where, when, why, how)
• 금지명령
• 요구명령
• 강한요구명령
Kor_3i4k
• 단어 또는 문장 조각
• 평서문
• 질문
• 명령문
• 수사적질문
• 수사적 명령문
• 억양에 의존하는 의도

단일 문장 분류 모델 학습

주요 파라미터

•input_ids : sequence token을 입력
•attention_mask : [0,1]로 구성된 마스크이며 패딩 토큰을 구분 •token_type_ids : [0,1]로 구성되었으며 입력의 첫 문장과 두번째 문장 구분 •position_ids : 각 입력 시퀀스의 임베딩 인덱스
•inputs_embeds : input_ids대신 직접 임베딩 표현을 할당
•labels : loss 계산을 위한 레이블
•Next_sentence_label : 다음 문장 예측 loss 계산을 위한 레이블

위의 정보들을 종합하여 실제 모델 학습 시 과정을 이미지로 나타내면 아래와 같다.

Dae Hee Lee

Today is the day

이전 포스트

부스트캠프 week9 추가학습 huggingface Trainer, wandb sweeps

다음 포스트