[부스트캠프] Day 96 회고

Gamchan Kang·2025년 1월 3일
0

오늘 스터디에서 리뷰할 논문은 GPT-3였다. 이전 GPT 논문과 다른 점이 여럿 있었다. 우선, 분량이 매우 많았다. T5 논문에 비할 바는 아니지만, 본문만 40페이지 가량 차지했다. 다행인 점은 이전 GPT 모델에서 다뤘던 내용이 이어지고, 워낙 다양한 벤치마크 실험 결과를 서술하다보니 비교적 넘기면서 읽을 내용이 많았다는 점이다. 스터디를 하면서 기술 발전에 따라 논문을 리뷰한 적은 처음이었는데, 왜 트랜스포머에서 GPT까지 흐름에 따라 논문 읽기를 추천하는지 이해할 수 있었다. 아직 LLaMa-1 논문이 남았지만, 현재까지 리뷰한 논문은 다음과 같다.

  1. Attention is All You Need - Transformer 논문
  2. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - BERT 논문
  3. Improving Language Understanding
    by Generative Pre-Training - GPT-1 논문
  4. Language Models are Unsupervised Multitask Learners - GPT-2 논문
  5. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer - T5 논문 (일정 상 약식으로 진행)
  6. Language Models are Few-Shot Learner - GPT-3 논문
  7. LLaMA: Open and Efficient Foundation Language Models - LLaMa-1 논문 (24.01.07) 예정

GPT-3와 관련된 내용도 재밌는게 많았지만, 이번 스터디에서 가장 인상 깊었던 것은 발표를 맡은 팀원의 PPT 자료였다. 한 눈에 봐도 깔끔하고 이해하기 쉽게 짜여져있었다. 구성과 설명, 적재적소에 배치된 표와 그래프, 이미지까지 발표를 듣는 청중으로 하여금 잘 짜여져 있었다. 어제부터 밤을 새워 만들었다는데, 나는 밤을 새도 그렇게 PPT를 만들 자신이 없었다. 나중에 물어봤는데, 이전에 PPT를 첨삭한 경험이 많이 있었다고 했다.
발표를 들으면서 2가지를 반성하게 됐다. 나는 GPT-2 발표 자료를 만들 때 피곤하다는 핑계로 4시간 정도 발표 자료를 만들다가 포기했다. 스터디 그라운드 룰을 정할 때, 발표를 돌아가며 진행하는 건 발표 경험을 하기 위해서였다. 하지만 내가 이 경험을 온전히 했는가 되물어보면, 노력하긴 했으나 100%는 아니였던 것 같다. 발표를 부담스럽게 여겼던 나는 그 심정도 공공연하게 드러냈다.
그리고 나는 이제까지 경험했던 것들에 자신감이 있었다. 그리고 그 자신감을 드러내려고 부단히 노력했다. 어설픈 방식으로 팀원들에게 신뢰감을 주려고 노력한 것이다. 나한테서 신뢰감을 느끼는 주체는 다른 사람이다. 내가 이 정도 가지고 있다손 쳐도 그걸 어떻게 받아들일 지는 타인에게 맡겨야한다. 이제까지 억지로 다른 사람들에게 어필하려고 노력했는지, 진정 다른 사람을 생각하고 말과 행동을 했는지 돌이켜보게 된다.

profile
Someday, the dream will come true

0개의 댓글