GPT-4 Technical Report 정리 (현재 상황, 리포트 내용 정리, 읽으면서 있었던 Q&A)

Nakyung Kim·2023년 5월 27일
0

딥러닝

목록 보기
1/1

먼저 상황 정리부터 해보자.

“OpenAI가 성능으로 GPT-4로 보여준 부분도 있지만 저는 MS와의 협력을 보여준 첫번째 사례라는 점이 제일 크다고 생각합니다. 현재 MS는 엔비디아(NVIDIA)와의 협력관계를 맺고 있으며 최신 딥러닝 전용 GPU인 H100을 제공받아 데이터센터를 짓고 있습니다. 불과 몇일 전에 Azure는 H100 VM을 공개했습니다. 이에 비해 딥러닝으로 특화되어 있다고 평가받는 Google Cloud는 감감무소식입니다. 즉 현재 OpenAI-MS-NVIDIA가 협력체제를 구축해 Google을 압박하고 있는 모양새입니다.” - 모두의 연구소, 이영빈

GPT 1에서 2에서 3에서 4까지

출처: hitech.co.kr

출처: modulabs.co.kr

GPT 4에 관해서

이번 GPT-4는 기존 모델보다도 더욱더 complex 하고 nuanced 시나리오에서 이용될 수 있음. 즉, 더욱 많은 일상 생활의 다양한 상황에서 쓰일 수 있음.

이것을 확인하기 위해 “사람을 위해 디자인된” 시험들을 GPT에 테스트해봤음. 그 결과 아주 좋은 성과를 내었는데, 특히 미국 변호사 시험에는 무려 상의 10%의 기록을 받음. 기존 하위 10%에서 놀라운 발전!

출처: OpenAI

GPT-4의 가장 큰 특징은 택스트 뿐만 아니라 이미지 입력도 받을 수 있는 ‘멀티모달(multimodal)’ 모델이라는 점. 아래와 같이 유머 이미지 또한 이해할 수 있음.

*현제 이미지 입력을 포함한 GPT-4 기능은 Chat GPT pro를 사야지 이용할 수 있다고 함. 참고로 구글 바드는 오늘 (2023.05.24) 부터 이미지 서치가 가능하다고 함!!

많이 발전했지만 아직 갈 곳이 많은 GPT-4… 크게 3가지 challenge가 있음.

  1. not fully reliable (e.g. “hallucinations)
  2. limited context window
  3. does not learn from exprience

전반적으로 기본 GPT 모델들의 한계점과 비슷하지만, 점점 더 학습해야될 데이터가 많아지고 업데이트 해야될 부분이 많아지다 보니, 그만큼 더 한계점들의 중요성과 비중이 커지고 있다고 함.

이중에서 가장 대표적인것은 hallucination (환각) 현상인데, GPT는 주어진 prompt를 바탕으로 가장 그럴듯한문장을 생성할 뿐, 생성된 텍스트가 ‘맞는 말’인지 검증하지는 못함.

그래도 꾸준히 계속 개선되고 있음! OpenAI 내부의 사실 검증 테스트로 평가한 결과 이런 환각 현상에 관해서 GPT-4는 최신 버전의 ChatGPT보다 19%p 높은 점수를 얻었다고 함.

이는 RLHF (Reinforcement Learning from Human Feedback) 덕분.

여기서 잠깐! RLHF이 그래서 뭔데?!

사람이 직접 피드백을 주는 방식으로 언어모델을 최적화하는 기법.

*현재 몇몇 기능들은 ChatGPT에서는 사용하지 못하고 추후 GPT-4 API를 사용할 수 있음.

  • GPT-3에서 RLHF를 추가해서 만든게 GPT-3.5
  • GPT-3.5에서 멀티모달 + 더 많은 글자수 추론 추가한게 GPT-4

1시간동안 900번 혼나서 (human feedback 받아서) 완벽화된 로봇 백플립.
아래 코드를 이용했다고 함.
출처: openai.com

*이거에 관해서 더 읽고 싶다면 OpenAI의 Learning from human preferences를 읽어보면 좋음.

“OpenAI와 MS의 협업 프로세스가 만들어졌고 이 협업 프로세스가 잘 돌아갔는지에 대한 실험으로 GPT-3.5가 나왔습니다. 실험이 끝나고 OpenAI는 본격적으로 GPT-4를 훈련시키기 시작했고 안정적으로 실험이 되었으며 훈련 성능을 미리 예측할 수 있었다고 합니다. 거대 규모의 언어모델을 학습할때 훈련 성능을 예측가능한 건 이번 GPT-4가 최초입니다.” - 모두의 연구소, 이영빈

ㅇㅋㅇㅋ 그래서 GPT-4가 뭐?

RLHF는 텍스트가 사용자의 의도에 맞게 생성되도록 하는 데 큰 도움이 되었지만, 안전과 윤리적 문제를 만듬.

예) 위험한 화학물을 만드는 방법에 관해서 물어봤을때 GPT의 대답… 출처: OpenAI

이런 문제를 해결하기 위해, OpenAI는 RLHF 학습에 안전성과 관련된 더 많은 prompt를 포함시켰고, Rule-Based Reward Model(RBRM)이라는 기법을 도입했음.

“RBRM은 여러 개의 zero-shot GPT-4 classifier로 구성되어 있는데, 유해한 내용을 걸러내거나 무해한 내용을 걸러내지 않았을 때 GPT-4 policy model에 reward signal을 제공한다고 합니다. RBRM은 GPT-4 policy model의 output과 사람이 만든 평가 지표 (생성된 텍스트를 걸러내는 이유에 관한 문항들), 그리고 때때로 prompt까지 입력받습니다. 그 다음, 답변에 적절하지 않은 내용이 포함된 경우 거절 답변을 대신 생성하는 쪽에 reward를 부여합니다.” - 모두의 연구소

…RBRM은 또 뭐야?

그건 말이지, 아래 Bradley–Terry model (1952) 공식을 사용해서…

음 수학 빼고 개념만 보자면:

출쳐: Instruction finetuning and RLHF lecture from Hyung Won Chung (Open AI 연구원)

다시. GPT-4로 돌아가서

결과적으로 결론적으로 결과적으로:

GPT-4는 ChatGPT에 비해 안전하지 않은 답변을 생성하는 빈도가 더 적었다고 함

  • RealToxicityPrompts 데이터셋으로 실험한 결과
    • GPT-4는 0.73%의 경우에서만 적절하지 않은 텍스트를 생성
    • 기존 결과는 6.48%...!!!!

하지만 아직 Open AI는 이른바 ‘jailbreak’라고 불리는 방법들로 가이드라인을 무력화하고 위험한 답변을 생성하는 방법이 아직 존재한다는 것을 인지하고 있고, 모니터링 등을 통한 안전성 강화의 중요성을 강조하고 있다고 함.

  • GPT-4의 100페이지 중에서 15 페이지 빼고 다 system card에 관한 내용인데, 여기서 GPT-4가 적절하지 않은 prompt(폭력적/선정적인 내용, 혐오 발언, 범죄 관련 내용 등)를 어떻게 걸러내도록 학습되었는지 설명들을 수 있음.

GPT-4 모델의 scaling

마지막으로.

워낙 GPT-4 학습 모델이 크기 때문에 OpenAI가 GPT-4 프로젝트를 진행하면서 중점적으로 생각했던 부분이 바로 scaling이 잘 되는 모델을 구현하는 것이었다고 함.

  • scaling: 학습 시간이 GPT-4의 1/1000, 1/10000인 작은 모델의 성능 데이터로도 GPT-4의 성능이 정확하게 예측되도록 하는 것.

원래 모델의 크기가 커질수록 성능이 감소함. 하지만 GPT-4는 가장 많은 파라미터를 가지고 있음에도 불구하고 다른 모델에 비해 높은 정확도를 보였음

어떻게?

안알려줌.

지금 AI 툴에 관해서 너무 큰 경쟁구도 때문에 OpenAI는 technical report에서 모델의 구조/크기, 하드웨어 정보, 데이터셋 구성 방법, 모델 학습 방법과 같은 정보는공개하지 않겠다고 함.

더 알아가고 싶다면?

GPT-4에는 사실 기술적인 부분을 안알려줘요 ㅜㅜ 만약 기술적인 부분을 조금 더 집중해서 보고 싶다면 아래 자료를 보는걸 추천드립니다!! (저도 아직 자세히 보지는 못했지만 ㅜㅜ)

MIT 박사이자 Open AI 연구원이 일주일 전 (!!!) 소셜미디어에 올린 GPT fine tuning lecture 내용.

읽어보면서 궁굼했던점 Q&A

아래 내용은 딥다이브 딥러닝 논문 스터디에서 제가 속한 3IS 팀원들이 다 같이 정리해본 further questions와 그에 관한 대답들입니다 :)

1. GPT-4가 GPT-3.5에 비해 훨씬 느린 이유

GPT-4가 GPT-3.5보다 느릴 수 있는 여러 가지 이유가 있습니다. 일단, 아래의 점들을 고려해야 합니다:

  1. 모델의 크기: GPT-4는 GPT-3.5보다 크기가 훨씬 크기 때문에, 연산이 더 많이 필요합니다. 이는 모델을 실행하고 입력을 처리하는 데 더 많은 시간이 걸릴 수 있습니다.
  2. 복잡한 연산: GPT-4는 더 복잡한 연산을 수행할 수 있기 때문에, 더 많은 시간이 필요할 수 있습니다. 이는 더 정교한 결과를 가져오지만, 이를 달성하기 위해 더 많은 시간이 필요합니다.
  3. 하드웨어 제한: 모델이 실행되는 하드웨어의 성능에 따라 속도가 달라질 수 있습니다. 모델이 더 크고 복잡해질수록, 더 강력한 하드웨어가 필요합니다.
  4. 최적화: GPT-4는 아마도 GPT-3.5보다 최적화가 덜 되었을 수 있습니다. 이는 새로운 기능과 개선사항을 포함하는 데 중점을 둔 새로운 모델에서 흔히 볼 수 있는 문제입니다.

따라서 GPT-4의 느린 속도는 이러한 이유로 인해 발생할 수 있습니다. 그러나 이러한 문제는 보통 새로운 버전의 소프트웨어가 출시됨에 따라 개선됩니다.

2. GPT-4에서 다른 언어에 대한 학습 방식?

GPT-4, 그리고 OpenAI의 GPT 시리즈에 해당하는 다른 모델들은 'transformer'라는 아키텍처를 사용하는 언어 모델입니다. 이 모델들은 웹상의 텍스트 데이터를 활용해 학습되며, 이 텍스트 데이터는 다양한 언어들을 포함하고 있습니다.

GPT-4와 이전 버전의 모델들은 자연스럽게 다른 언어들을 학습하는 것이 가능합니다. 이는 모델이 입력으로 제공된 텍스트 데이터에서 언어의 구조와 문법을 자동으로 학습하기 때문입니다. 다시 말해, 이 모델들은 특정 언어에 대해 명시적으로 프로그래밍되지 않았으며, 대신 텍스트의 패턴을 학습하고 이를 기반으로 새로운 텍스트를 생성하거나 질문에 대답하는 능력을 가지게 됩니다.

그러나 이러한 방식은 완벽하지는 않습니다. 모델이 다른 언어들을 처리하는 능력은 그 언어의 데이터가 학습 데이터셋에 얼마나 많이 포함되어 있는지에 크게 의존합니다. 즉, 영어와 같이 웹상에 많은 데이터가 있는 언어는 잘 처리할 수 있지만, 다른 언어는 상대적으로 덜 정확하게 처리할 수 있습니다. 또한, 모델이 언어간 번역 능력을 갖추기 위해서는 대량의 양방향 번역 쌍이 학습 데이터셋에 포함되어야 할 것입니다.

그럼에도 불구하고, 이러한 언어 모델들은 대체로 여러 언어에 대해 상당한 이해력을 보이며, 많은 언어에서 효과적으로 작동할 수 있습니다.

3. 환각 현상 (hallucination) 을 어떻게 극복하고 있는지?

GPT-4 모델과 그 이전 버전들은 결국 텍스트를 기반으로 학습하는 모델들입니다. 이러한 모델들이 '환각 현상'을 처리하는 방법은 아직 완벽하게 해결된 것은 아닙니다.

환각 현상이란 AI가 학습 데이터에 존재하지 않는 정보나 패턴을 '만들어내는' 현상을 말합니다. 예를 들어, 모델이 실제 세계에서는 일어나지 않은 일을 기술하거나, 존재하지 않는 사실을 주장하는 경우입니다. 이런 현상은 AI 모델이 제한된 학습 데이터를 기반으로 전체 세계를 이해하려고 시도할 때 발생합니다.

GPT-4와 이전 모델들은 명시적으로 환각 현상을 해결하는 메커니즘이 내장되어 있지는 않습니다. 대신, 이러한 현상을 완화하는 방법 중 하나는 학습 데이터의 품질과 다양성을 향상시키는 것입니다. 이렇게 하면 모델이 더욱 정확한 패턴과 정보를 학습할 수 있게 됩니다.

또 다른 방법은 학습 프로세스를 보완하는 것입니다. 예를 들어, GPT-4가 '자기 감독 학습'과 '감독 학습'을 결합하는 방식을 채택했다면, 이는 모델이 과도한 환각을 줄이도록 돕습니다. 자기 감독 학습에서는 모델이 큰 데이터셋에서 패턴을 학습하고, 감독 학습에서는 사람이 제공하는 특정 피드백을 사용하여 모델의 출력을 보정합니다.

그러나, 이러한 방법들도 환각 현상을 완전히 해결하지는 못합니다. 이 문제는 여전히 AI 연구에서 활발히 연구되고 있는 주제입니다.

profile
안녕하세요!

0개의 댓글