MathTrap
데이터셋은 수학적 추론에서의 LLM(대형 언어 모델)의 한계를 평가하기 위해 설계되었습니다. 이 데이터셋은 기존의 수학 문제 집합에 "Trap Problems"를 추가하여, 모델이 논리적 모순, 정의되지 않은 조건, 또는 불가능한 상황을 어떻게 처리하는지를 테스트합니다. Trap Problems는 모델이 수학적 추론을 제대로 할 수 있는지, 또는 복잡한 문제에서 오류를 발생시키는지를 평가하는 데 사용됩니다.
Trap Problems의 종류는 크게 다음과 같습니다:
- 정의되지 않은 개념: 예를 들어, 나누기 0과 같은 수학적 함수가 정의되지 않은 문제.
- 누락된 조건: 중요한 정보가 생략되어 문제를 해결할 수 없는 경우.
- 직접적인 모순: 문제에서 제공된 정보가 서로 모순되는 경우.
- 간접적인 모순: 수학적으로 맞는 해가 나오더라도 문제의 맥락에서 성립하지 않는 답이 나오는 경우.
- 상식 위반: 현실 세계의 법칙에 어긋나는 문제.

주요 발견
- 구성적 결함: LLM은 문제를 작은 논리적 단계로 나누어 해결하는 데 어려움을 겪습니다. 이로 인해 여러 개념이나 단계를 포함하는 복잡한 문제에서 오류를 발생시킵니다.
- Trap Problems: "Trap Problems"는 LLM이 오해할 수 있는 문제들로, 모델이 잘못된 해석을 하게끔 유도하는 문제를 말합니다. 예를 들어, 삼각형의 크기나 차원의 모순을 인식하지 못하는 경우가 있습니다.
- 상식 위반: LLM은 상식적으로 불가능한 문제나 명백한 오류를 감지하지 못하고 잘못된 답을 제시하는 경우가 많습니다.
- MATHTRAP 데이터셋 평가
- LLM은 대부분의 함정 문제에서 정확도가 절반 이하로 감소하며, 논리적 함정 상황에 대한 적용이 부족함을 확인했습니다.
- GPT 모델 중 일부는 테스트 시간 확장을 통해 인간과 유사한 성능을 보였으나, 여전히 인간(85.9%)에는 미치지 못합니다.
- 인간과 LLM 성능 비교
- 과학 및 공학 전공 대학생 43명이 MATHTRAP 문제를 풀었고, 정확도 비율은 85.9%로 LLM을 능가했습니다.
- LLM 성능 개선 시도
- 자연어 프롬프트: 함정 문제에 대해 "해결 불가할 수 있다"는 힌트를 추가하면 성능이 개선됨.
- Few-shot 데모: 1-shot 및 5-shot 예시를 문제 컨텍스트에 추가했을 때 성능이 개선됨.
- Fine-tuning: MATHTRAP 데이터로 LLM을 재학습시켰고, 이로 인해 함정 문제 성능이 개선되었으나 원본 문제 정확도는 감소하는 경향이 있었습니다.
결론적으로, LLM은 논리 함정 인식 능력은 있으나 새로운 문제 경로에서는 이를 효과적으로 적용하지 못합니다. 몇 가지 외부 힌트 및 fine-tuning을 통해 개선 가능성을 확인했습니다.
결론
- 프롬프트의 효과
- 추가적인 프롬프트 정보가 일부 실패를 완화할 수 있음.
- 그러나 깊은 논리적 추론이 필요한 문제에서는 일관된 해결이 어려움.
-
모델 성능 평가
- MathTrap 데이터셋을 사용하여 여러 모델의 성능을 분석.
- 인간은 Trap Problems에서 83.8%의 정확도를 기록.
- 대부분의 모델은 여전히 성능이 부족함.
-
Trap Problems 해결 시 특징
- 외부 프롬프트나 예시 제공 시 성능이 일부 개선됨.