부스트캠프 week9 day4 BERT 기반 분류 모델

Dae Hee Lee·2021년 9월 29일
0

BERT 기반 단일 문장 분류 모델 학습

문장 분류 Task

  1. 감정분석(Sentiment Analysis)
    • 문장의 긍정 또는 부정 및 중립 등 성향을 분류하는 프로세스
    • 문장을 작성한 사람의 느낌, 감정 등을 분석 할 수 있기 때문에 기업에서 모니터링, 고객지원, 또는 댓글에 대한 필터링 등을 자동화하는 작업에 주로 사용
    • 활용 방안
    • 혐오 발언 분류:댓글,게임 대화 등 혐오발언을 분류하여 조치를 취하는 용도로 활용
    • 기업 모니터링:소셜,리뷰 등 데이터에 대해 기업이미지, 브랜드 선호도,제품 평가 등 긍정 또는 부정적 요인을 분석

  2. 주제 라벨링(Topic Labeling)
    • 문장의 내용을 이해하고 적절한에 범주를 분류하는 프로세스
    • 주제별로 뉴스 기사를 구성하는 등 데이터 구조화와 구성에 용이
    • 대용량 문서 분류 : 대용량의 문서를 범주화
    • VoC(Voice of Customer) : 고객의 피드백을 제품 가격, 개선점, 디자인 등 적절한 주제로 분류하여 데이터를 구조화

  3. 언어 감지(Language Detection)
    • 문장이 어떤 나라 언어인지 분류
    • 주로 번역기에서 정확한 번역을 위한 타겟팅 작업
    • 활용 방안
    번역기, 데이터 필터링(타겟 언어 외에는 필터링함)

  4. 의도 분류(Intent Classification)
    • 문장이 가진 의도를 분류하는 프로세스
    • 입력 문장이 질문, 불만, 명령 등 다양한 의도를 가질 수 있기 때문에 적절한 피드백을 줄 수 있는 곳으로 라우팅 작업 가능
    • 활용 방안
    챗봇 : 문장의 의도인 질문, 명령, 거절 등을 분석하고 적절한 답변 제공

문장 분류를 위한 데이터

  • Kor_hate
    • 혐오 표현에 대한 데이터
    • 특정 개인 또는 집단에 대한 공격적 문장
    • 무례, 공격적이거나 비꼬는 문장
    • 부정적이지 않은 문장

  • Kor_sarcasm
    • 비꼬지 않은 표현의 문장
    • 비꼬는 표현의 문장

  • Kor_sae
    • 예/아니오로 답변 가능한 질문
    • 대안 선택을 묻는 질문
    • Wh- 질문 (who, what, where, when, why, how)
    • 금지명령
    • 요구명령
    • 강한요구명령

  • Kor_3i4k
    • 단어 또는 문장 조각
    • 평서문
    • 질문
    • 명령문
    • 수사적질문
    • 수사적 명령문
    • 억양에 의존하는 의도

단일 문장 분류 모델 학습

주요 파라미터

•input_ids : sequence token을 입력
•attention_mask : [0,1]로 구성된 마스크이며 패딩 토큰을 구분 •token_type_ids : [0,1]로 구성되었으며 입력의 첫 문장과 두번째 문장 구분 •position_ids : 각 입력 시퀀스의 임베딩 인덱스
•inputs_embeds : input_ids대신 직접 임베딩 표현을 할당
•labels : loss 계산을 위한 레이블
•Next_sentence_label : 다음 문장 예측 loss 계산을 위한 레이블

위의 정보들을 종합하여 실제 모델 학습 시 과정을 이미지로 나타내면 아래와 같다.

profile
Today is the day

0개의 댓글