[논문리뷰] Solving Quantitative Reasoning Problems with Language Models : Minerva

jihwanyoon·2023년 1월 31일

Paper Reviews

목록 보기

1/10

1. Introduction

다양한 자연어 task에서 성공을 거둔 거대 언어 모델.
하지만 양적 추론(quantitative reasoning)이 필요한 task에서 고전하였다. ex) 수학, 과학, 공학 문제들…

💡 Quantitative Reasoning
여러 방면에서 모델의 능력을 시험할 수 있는 흥미로운 도메인이다. 자연어 input을 올바르게 구문 분석하고 계산하여 과학이나 engineering 분야에서 인간의 작업을 지원하는 유용하게 사용된다.

이전 연구에서 거대 언어 모델이 도메인 특화된 데이터셋을 학습한 후 수학 및 프로그래밍 질문들에서 좋은 성능을 달성하였음을 보였다.

=⇒ 저자들은 이를 외부 도구에 의존하지 않으며 완전하고 자체적인 솔루션을 제공하는 양적 추론 문제에 적용하였다.

1.1 Our Contribution

💡 Minerva

많은 quantitative reasoning 작업에서 강력한 성능을 달성한 언어 모델.

자연어로 공식화된 과학 및 수학적 질문을 처리, LATEX 표기법을 사용하여 단계별 솔루션을 생성할 수 있음.

PaLM(Pathway Language Model)을 기반으로 고품질의 과학, 수학 데이터셋을 학습시킴.

model size : 8B, 62B, 540B

MATH, GSM8k, MMLU-STEM에서 SOTA 달성.

평가 데이터셋에 대해 few-shot setting 만으로 robust한 성능을 보인다.
사용한 데이터셋은 arXiv preprint server와 웹페이지들에서 수학자료들의 loss를 minimise 하기 위해 세밀히 가공하여 모았다.

=⇒ 이에 SOTA 달성 뿐만 아니라 데이터 품질과 모델사이즈를 늘림으로써 Quantitative reasoning 벤치마크의 새로운 베이스라인을 세웠다.

벤치마크 적용 범위 증대를 위해 MIT의 OCW(OpenCourseWare)에서 200개 이상의 과학 및 수학 학부 수준의 질문 데이터 세트를 구축하였다.

GSM8k Cobbe et al. (2021)는 verifiers들이 모델 output의 순위를 다시 매기게 훈련시킴으로서 성능향상이 됨을 보였다. (본 논문에선 외부 도구를 쓰지 않는 self-contained model에 집중한다.)

💡 기존 생성 task에서 language model을 평가하는 방법

1) 표준 방법은 문제 당 하나를 sampling 하는 것
2) 최근 연구들에선 문제 당 여러 solution들을 sampling하고 최종 답을 filtering하는 것은 너무 도전적이라는 것을 밝혀냈다. (Chen et al., 2021; Li et al., 2022; Thoppilan et al., 2022; Wang et al., 2022)

본 논문에선 majority voting(Wang et al., 2022)가 greedy decoding에 비해 상당한 성능 향상을 보임을 발견하였다.

Code generation

PaLM(Chowdhery et al., 2022) 는 훈련 데이터셋에 코드를 포함하고 있는 거대 언어모델은 GSM8k의 코드 버전에서 좋은 성능을 보인다고 한다.
Codex model(Chen et al., 2021)은 MATH 문제들의 코드 솔루션을 생성해냈다고 한다.

Formal mathematics

수학은 자연어를 기반으로 한 학문으로 발전했지만 그것의 공리적인 기초는 수학적 사고의 시뮬레이션을 가능케 한다.(???)
이는 컴퓨터를 이용한 논리적, 수학적 사고의 시뮬레이션을 용이하게 하는 전문 프로그래밍 언어를 사용하여 달성 가능하다.
E (Schulz, 2013), leanCoP (Otten, 2008), and Vampire (Kovács and Voronkov, 2013) 와 같은 자동화된 증명 보조장치들이 기계학습과 결합되어 상당한 혜택을 받았다.

Language models applied to formal and synthetic mathematical problems

이전엔 수학적 표현을 예측하기 위해 언어 모델을 훈련시켰다고 한다.
(Rabe et al. (2021); Li et al. (2021); Polu and Sutskever (2020); Wu et al. (2021); Han et al. (2022); Polu et al. (2022); Jiang et al. (2022); Wu et al. (2022))
fomal language의 경우 여전히 GNN과 같이 주어진 수학공식 그래프 구조에 대한 정보를 쉽게 유지하는 모델들은 경쟁력있다고 한다.

Modelling mathematics as a discipline of natural language

새로운 벤치마크 데이터셋(Hendrycks et al., 2021; Welleck et al., 2021)은 더 고급수학 주제를 다루지만 이 도메인에서 여전히 다른 클래스의 모델들과 경쟁하기엔 제한된다.

2. Training and Evaluation

2.1 Mathematical Training Dataset

수학 내용으로 필터링된 웹페이지와 arXiv에 등록된 논문의 38.5B 토큰 분량의 데이터셋(MathJax format, 대부분의 HTML tag 제거, LATEX symbol과 format과 같은 수학적 표기법은 보존하는 cleaning 과정을 거쳤다.)
PaLM을 사전 학습시키기 위해 사용된 일반적인 자연어 데이터셋
이를 통해 계산 및 기호 조작이 필요한 작업에서 모델이 잘 작동하게 만들었다.

2.2 Models and Training Procedure

사전학습된 PaLM을 autoregressive objective를 이용하여 수학 데이터셋에 fine-tuning 시킨다.
540B 모델은 26B 토큰으로 fine-tuning시키는데 이는 8B, 62B에 비해 상당히 덜 학습시키지만 여전히 상당한 성능을 기록한다.

💡 Details
- context length : 2,048
- batch size : 128(except for the 540B model : 32)
- learning rate schedule : reciprocal square-root decay
- training steps
⇒ 8B : 1M steps + 600k additional unsupervised finetuning steps
⇒ 62B : 520k steps + 400k additional unsupervised finetuning steps
⇒ 540B : 257k steps + 383k additional unsupervised finetuning steps
- learning rate was dropped 10x and all models were then trained for 4% additional steps
*- t5x framework(Roberts et al., 2022)*

v4 TPU on Google Cloud
- training time
⇒ 8B : 14 days on a v4-128
⇒ 62B : 17 days on a v4-512
⇒ 540B : 29 days on a v4-1024**

2.3 Evaluation Datasets

few-shot evaluation을 main focus로 잡는다.
input을 왼쪽에서 1024 token을 기준으로 자르고 512 token 까지 생성한다.
한 문제당 하나를 할 경우 greedy sampling, 두 개 이상일 경우 T=0.6, p=0.95인 nucleus sampling(Holtzman et al., 2019)을 한다.
생성 task의 경우 모델은 chain-of-thought 답을 생성하고 최종 답을 구분한다. 만약 답이 맞으면 chain-of-thought의 품질에 관계없이 맞은 것으로 한다.
정확성 평가를 위해 최종 답을 구문 분석하고 SymPy 라이브러리르 이용해 비교한다. 이는 수학적으로 같은 경우를 식별하기 위해서이다.

MATH

LATEX 구문으로 쓰여진 12k의 중,고등학생 수학문제 데이터셋(Hendrycks et al. (2021))

훈련셋에서 정답이 길지 않은 4개의 고정된 prompt를 모델에 사용하였다.

💡 few-shot learning 용어 간단정리

way : 데이터 클래스의 개수 (ex. 개고양이 분류기 - 2 way classification)

shot, point : 데이터의 개수

query : test data (엄연히 따지자면 validation data)

source : train data

출처 : https://huidea.tistory.com/252?category=879542

GSM8k

중학교 수학단어 문제(Cobbe et al. (2021)
chain-of-thought prompt를 이용하여 평가하였다.
기존의 모델들은 외부 계산기를 활용하였으나 본 논문에선 외부 도구를 사용하지 않았다.

MMLU-STEM

MMLU dataset에서 science, technology, engineering, mathematics(STEM)에 집중한 데이터셋이다.
5-shot prompt + chain-of-thought prompting(examples that include step-by-step solutions)

Prompt Tuning??

2.4 Undergraduate-Level STEM Problems

MIT(OpenCourseWare)의 publicly-available course meterials 에서 automatically-verifiable solutions(SymPy)을 통해 수집한 학부 수준의 데이터셋.
대부분이 multi-step reasoning을 포함하며 본 논문에선 OCWCourses 라고 부른다.

2.5 Inference-Time Techniques

greedy decoding을 능가할 방법으로 k>1 개의 solutions들을 sampling하고 하나를 majority voting( Wang et al. (2022))로 뽑는 방법을 찾아냈다.

⇒ 최종 답변에 대한 예측을 그룹화하고 가장 일반적인 답변을 선택하는 방법 : maj1@k

majn@k : 위의 확장 버전, n개의 가장 일반적인 답변 선택하기.
직관적으로, majority voting이 성능을 향상시키는 이유가 답변을 잘못하는 경우는 많은 반면에 정확하게 답변하는 경우는 매우 적기 때문이라고 한다.

💡 pass@k :
k개의 출력 중 하나 이상이 모든 단위 테스트를 통과하면 문제가 해결된 것으로 간주하고 그 비율을 측정한 평가 지표.

평가 지표마다 얼마나 k에 의존하는지에 대해 실험
- pass@k는 k가 커질수록 증가한다. 분포의 꼬리에서 성능 향상이 이루어진다.
- 위와 반대로, majority voting 성능은 더 빠르게 포화된다. 97% 정확도 달성까지 MATH는 k=64, GSM8k는 k=16
  
  ⇒ 가장 일반적인 답을 고르고 k가 클수록 추정오차는 작아지기 때문이다.
Log-likelihood metric도 있지만 majority voting이 훨씬 낫다.

3. Results

Minerva 모델과 다른 모델들을 비교한 표이다.
MMLU 평가는 표준 5-shot 프롬프트를 각 topic마다 사용하고 가장 높은 점수의 답을 골랐다. majority voting과 함께 k=16 개의 답을 chain-of-thought prompt를 이용해 sampling하였다.
OpenAI의 davinci-002 모델을 공식 추천 temperature(T=0.2) set으로 평가하였다.
- GSM8k를 제외한 모든 task에서 기존 SOTA보다 성능 향상이 이루어졌다고 볼 수 있다.
본 논문에선 few-shot evaluation이 main focus지만 fine-tuning 역시 진행하였다.
- Minerva를 MATH 데이터셋에 fine-tuning한 결과는 별 의미 없었지만 PaLM은 상당한 성능 개선이 있었다.
- 저자들은 비지도 학습 데이터셋의 품질과 다양성이 개선됨에 따라 표준적인 fine-tuning의 한계 효용이 감소했다고 표현하였다.

4. Performance Analysis

4.1 Model Mistakes

모델의 실수를 더 잘 이해하기 위해 Minerva 8B와 62B 모델에서 각각 높은 신뢰도의 majority decision을 기반으로 216개의 문제들을 비교하였다. (최소 15% voting)
- 8B가 맞고 62B가 틀린 경우 : 15 samples
  - 대부분 추론이나 계산이 잘못된 경우였다.
  - 답이 너무 짧은 경우는 거의 없었다(이땐 중간과정 없이 바로 오답을 내뱉었다).
  - 몇몇의 경우 모델이 실제가 아닌 방정식이나 수학적 사실에 환각(?)을 일으켰다.
- 62B가 맞고 8B가 틀린 경우 : 201 samples (당연히 이 경우가 더 많다.)
  - 대부분이 다시 추론이나 계산이 잘못된 경우였다.
  - 저자들은 62B 모델이 8B 모델의 스킬 대부분을 가지고 있고 추론과 계산이 robustness에 있어 향상되었다고 말한다.

4.2 False Positives

양적 추론 문제를 해결하는 관점에서 최종 정답이 정답인지는 자동으로 확인이 가능하지만, 안타깝게도 모델의 chain-of-thought 추론을 자동으로 검증하는 방법은 없다고 한다.

=⇒ 이는 False Positive error의 가능성을 시사한다. (답은 맞았는데 추론과정이 틀린 경우.)

- MATH dataset에서 100개 질문 + 62B model zero temp sampling
- Fasle Positive rate를 측정한 결과 전반적인 비율이 낮고 difficulty level에 오름에 따라 올라간다는 것을 발견했다.

pass@k 평가에서 정답이지만 majority voting 결과가 아닌 경우에 주목하였다. (그 중에서도 정답이 한 번만 나타나는 경우)
- 가장 추론하기 어려운 정답들은 False positive에 있을 가능성이 높기 때문이다.
- 이 경우, 62B 모델의 pass@256 정확도는 84.5%인데에 비해 False Positive rate이 30%인 것으로 추정하였다.
- Fals Positives들을 제거할 경우, 정확도가 68%보다 커질 것으로 추측했다.

5. Memorization

Minerva의 solution을 해석하는데 있어 중심적인 질문은 성능이 진짜 분석 능력을 반영하는지 아니면 대신에 암기를 하는가이다.
- 이는 언어 모델이 종종 훈련 데이터의 일부를 암기한다는 많은 선행 연구가 있기에 특히 관련이 있다고 한다. (Trinh and Le, 2018; Radford et al., 2019; Carlini et al., 2022)
- 저자들은 제곱근이나 삼각함수와 같은 intermediate fact들을 암기하는 것이 모델 솔루션에 있어 중요하다는 사실을 발견했다고 한다.
- 강력한 성능 = intermediate fact의 recall + truely solution
따라서, 모델이 동일한 질문의 대체 답변을 암기하는 weaker form에 대해서도 조사하였다. 모델이 훈련 데이터에서 외운 정보를 불러와 문제를 해결하는지 평가하기 위해,
- 1) 훈련 말뭉치에서 문제와 답변을 직접 검색한다.
- 2) 수정된 문제로 변화를 주고 모델의 견고성을 평가한다.
- 3) 실제 solution과 모델에 의해 생성된 solution 사이의 중복 정도를 측정하고 이 유사성이 모델 성능에 미치는 영향을 측정한다.
저자들은 모델의 성능이 memorization에 기인할 수 있다는 증거를 찾지 못했다고 한다.

5.1 Training and Evaluation Dataset Overlap

Minerva 62B 모델이 정답을 산출한 문제 중 majority voting 점수가 높은 100개의 문제를 선택하였고, 이들이 암기되었을 가능성이 높다고 예상하였다.
MATH Web Pages dataset의 500자로 구성된 청크에서 BLUE 점수를 계산하고, 높은 순서대로 250개의 document를 수동으로 검사하였다.
많은 경우 숙제를 도와주는 사이트에서 겹쳤지만 MATH 데이터셋과 겹치는 경우는 하나도 없었다.

5.2 Performance on Modified MATH Problems

Minerva 62B 모델의 majority voting 정답 중 20개를 랜덤하게 가져와 단어(구조)를 약간 수정하거나 숫자를 바꾸고 solution도 적절하게 수정하였다.
수정 전과 후의 정확도를 비교해봤으나 둘 사이에 상관관계가 존재하였고 원래 공식에 대한 clear bias가 존재하지 않았다. ⇒ memorization은 최소한으로 이루어졌음을 보였다.

5.3 BLUE Score Between Ground Truth and Generated Solutions

정답과 모델 답변 사이의 BLUE score 를 측정하여 memorization을 탐지하고자 했다.
62B 모델을 사용하여 MATH dataset의 문제 당 256개의 sample을 분석하는데 모든 정답 표본에 대해 중복 통계를 계산하였다.

그 결과 5,000개의 test questions 중 160개의 BLUE score가 80 이상임을 발견하였다.
- 저자들은 이들의 solution이 짧은 경향을 가짐에 주목하였다.
특정 BLUE 점수 임계값 이상의 샘플들을 제거하고 majority voting 정확도를 재계산한 결과(5.2 figure 3) 상대적으로 낮은 유사성(40)까지 강하다는 것을 발견하였다.
- ground truth와 가장 유사한 경우를 제외하고도 성능이 robust함을 의미한다.
- 이는 모델 성능이 실제 정답과 매우 가까운 모델 output에서 기인하지 않음을 알 수 있다.

6. Conclusions and Discussion

고품질의 수학 데이터 세트에서 거대 언어 모델을 훈련함으로써 논리적 추론, 수치 계산 및 기호 조작이 필요한 task에서 강력한 성능을 달성할 수 있음을 보였다.
Minerva는 외부 도구에 의존하지 않고 autoregressive sampling에만 의존한다.
다만 코드 생성 모델과 형식적 방법들과 같은 다른 모든 접근 방식들의 유용한 요소들이 결합되어 양적 추론문제를 해결해나가야 한다.

6.1 Limitations of Our Approach

모델 답변의 정확도를 자동으로 검증할 방법이 없다.
외부 도구에 엑세스할 수 없어 복잡한 수치 계산이 필요한 작업 수행엔 한계가 있다.
많은 양의 데이터로 훈련되었기에 모델의 특정 기능에 대한 직접적인 제어가 거의 없다.

6.2 Societal Impact

상당한 사회적 영향을 미칠 수 있는 잠재력을 가지고 있지만 아직 멀었다.
모델 성능은 여전히 인간보다 훨씬 낮으며, output의 정확성을 자동 검증할 방법이 없다.
이런 문제가 해결된다면 이 모델의 영향은 대체로 긍정적일 것으로 기대한다.
직접적인 응용법으로는, 누구나 접근 가능하고 저렴한 수학 과외로서 교육 불평등을 개선하는데 도움을 줄 수 있을 것이다.

jihwanyoon

hi!

다음 포스트

[논문리뷰] Solving Quantitative Reasoning Problems with Language Models : Minerva

Paper Reviews

1. Introduction