EmoBench: Evaluating the Emotional Intelligence of Large Language Models

김태민·2024년 6월 28일
0

KAIST Intern

목록 보기
6/6
post-thumbnail

Paper Link

1. Summary

we do not claim nor believe that LLMs are capable of possessing or simulating emotions.

1-1. 연구 목적

감정 인식과 이해능력에서 아직 LLM은 많은 부족한 결과를 내고 있다. 이에 대하여 주요한 원인으로 벤치마크에 대한 부재라고 생각한다고 주장하였다. 또한 LLM의 감정 인식 및 이해 작업에 대해 현재 LLM과 각종 AI 모델들은 이해보다는 패턴 인식에 가까워 이는 인간과 많은 거리감이 있다고 분석하였다.
즉 현재의 감정 관련 데이터 등이 모델의 이해 및 추론 보다는 빈번한 패턴과 명시적인 정보에 의존한다고 주장하였다. 그러므로 저자들은 모델이 보다 감정의 대한 이해 및 적용 관점에 대해서 벤치마크를 설계하였다.

1-2. 연구 내용


저자들은 각종 심리학 이론들을 도입 하며 벤치마크를 이미지와 같이 분류하였다.
복잡한 감정 적용 및 관계등을 메인 카테고리로 나누며 이에 대하여 세분화된 카테고리로 분류하였다. 이후 EmoBench를 사람이 직접 라벨링 함으로써 객관식 문제를 제작하였다. 이를 MCQ 데이터로 부르며 객관식 데이터 200개로 개인의 정신 상태 이해 및 감정적 딜레마등 여러 포인트를 중점으로 평가를 실시하였다.

1-3. 결과


CE, PBE, PT, EC indicate Complex Emotions, Personal Beliefs and Experience, Perspective Taking, and Emotional Cues, respectively.

총 24개의 LLM을 통해 평가하였으며 모델을 평가할때 zero-shot, CoT를 활용하였다.

Error Analysis


LLM은 패턴인식과 같은 경향성을 보였다.
저자들은 주장한대로 LLM은 특정 패턴인식에서 마치 특정 단어가 나오면 이를 특정 감정상태로 분류하였다.
예)

context : I have acrophobia. Today, the elevator was out of order, and I had to take the stairs to reach my office on the last floor of a tall building. I considered it a nice little exercise. Question I feel ...?


(a)Excitement (b) Fear (c) Disapproval (d) Nervousness


LLM : (b) Fear -> I was afraid of taking the stairs due to my acrophobia.

실제로 운동해서 괜찮았다고 입력을 하였지만 공포증이라는 단어가 들어감으로써 Fear을 선택하였다. 이외에도 이미지와 같은 케이스들이 많이 존재함으로써 LLM은 이해와 추론 능력보다는 패턴인식에 대한 강한 경향성을 보였다.
저자들은 이러한 이유가 LLM은 감정에 대한 이해가 부족, 관점 수용능력 부족, 팬턴 인식이라고 생각하였다.

Comparison with Human Performance

사람과의 비교에서도 현재 LLM은 사람과 많은 격차가 벌어지는것으로 확인됐다. 여전히 LLM은 사람과는 많이 차이나는 기계일뿐이다.

2. Conculsion

본 논문에서는 LLM이 실제로 감정에 대해 얼마에 이해하고 적용되는지에 대한 보다 정확한 객관적인 평가를 진행하였다. 이에 대하여 각종 심리학에 기반하여 감정을 분류할 수 있도록하며 전작 리뷰한 논문과 다르게 주관적보다는 객관적 평가를 사용하였다.
직접 라벨을 제작하며 MCQ 데이터셋을 제작 및 평가로 LLM과 사람의 차이 그리고 패턴인식에 대한 경향성을 직접 확인하며 감정에 대한 이해 및 추론 능력의 부족함을 절실히 보여주었다.

profile
한성대학교 네이버 AI Tech 5기 NLP

0개의 댓글