[부스트캠프] Day 66 회고

Gamchan Kang·2024년 11월 18일
0

10:00 ~ 13:00

본격적으로 데이터 EDA에 착수했다. gpt 4o mini를 활용해 문제 유형을 분류했다. 분류 카테고리는 다음과 같았다.

  • 사실 확인 유형: 지문 내 정보를 대조하면서 정답을 고르는 유형
  • 도출형 추론 유형: 지문 내 정보를 가공해 정답을 도출하는 유형
  • 연결형 추론 유형: 지문 내 정보에서 외부 배경 지식과 연결하여 정답을 고르는 유형
  • 논리적 추론 유형: 지문 내 정보를 바탕으로 수리/논리적 사고로 정답을 고르는 유형

위 같이 카테고리를 설정하는 이유는 내가 수능형 문제를 푸는 방법이기 때문이다. 예를 들어 "위 내용에 따라 틀린 것은?"이라는 질문은 지문과 선다를 비교하면서 밑줄을 그어가며 문제를 해결한다. 나는 유형 별로 문제 풀이 과정이 달라질 것이라고 가정하고 접근했다. 하지만 가정에 한계점이 있었다.

  1. 위 유형이 전부인가?
  2. 위 유형이 mutual exclusive하다고 확신할 수 있나?

이에 대해서 고민을 하면서 아이디어를 더 구체화했다.

13:00 ~ 16:00

데이터 EDA를 하는 다른 팀원에게 도움을 요청했다. 나도 데이터를 직접 훑어보긴 했으나, 나랑 다른 성향을 가진 팀원이고 좀 더 꼼꼼히 봤기 때문이다. 그 팀원은 다음 분류 기준을 제안했다.

  • 지문에 정답이 있는 문제
  • 지문에 정답이 없는 문제

여기서 더 고민을 해보니 paraphrasing이라는 문제가 발생했다. 어텐션 메커니즘으로 동작하면 해결할 수 있겠다라는 생각이 있지만, paraphrasing 정도가 심해지고, 상식이 많이 가미된다면 LLM이 정신을 못 차릴 것 같다는 문제도 있었다. 또한 나는 지문에 정답이 없는 문제가 좀 더 다양한 카테고리로 분할되어야 한다고 생각했다. paraphrasing을 배제하더라도, 연역적인 사고가 필요한 데이터를 여럿 봤고, 문제 풀이 과정에서 외부 지식이 뒷받침 되는 경우도 많이 봤기 때문이다.

그 외 의견으로는 데이터셋 설명대로 국어, 역사, 윤리, 철학, 법 등 도메인 별 분리하는 아이디어도 있었다. 또한 데이터셋을 직접 훑어보면서 내가 도출해낸 경우가 아닌, 직접 예시를 연결해보라는 조언을 얻었다.

16:00 ~ 19:00

위 내용을 바탕으로 4가지 카테고리에 각 1개 예시를 넣어서 다양한 실험을 진행했다. 하지만, 이제까지 결과가 좋지 않았다. 유형이 한 쪽으로 치우치는 것은 그럴 수 있겠다 싶었다. 하지만, 해당 유형으로 분류한 이유를 추가로 물어보니 완전히 똑같은 텍스트가 계속 출력되었다. 현재는 프롬프트를 바꾸는 것을 잠시 멈추고 temperature을 올려 실험을 진행하고 있다. 그나마 그럴 싸한 결과를 얻고 있는데, 무작위성으로 실험 결과를 얻는게 그다지 만족스럽지 않다.

profile
Someday, the dream will come true

0개의 댓글