결국 밤을 샜다. reasoning부터 이를 기반으로 키워드 추출, 위키피디아 문서 크롤링 시도까지 했다. 돌고 돌아서 결과가 훨씬 좋아졌긴 하지만, 시간이 무척 촉박했다. 배우는 과정이라고 하지만, 너무 돌아가다보니 좀 화가 나기도하고 짜증나기도 한다. 그렇다고 내가 그 때 당시로 돌아가면 똑같이 실험을 진행했을 것 같다. 아무래도 팀에 실질적으로 기여한 부분이 없다보니, 조급해지는가 보다.
실험으로 돌아와서 reasoning 결과는 무척 흥미로웠다. 아무래도 외적 추론 유형에서는 reasoning이 힘을 못 썼는데, 그래도 정보가 없는 것 치고는 괜찮게 나왔다. 이제까지 한 실험 중, 가장 잘 나온 것 같다. 그리고 실험 결과로 명확해진 점이 있는데, 내적/외적 추론 유형 분류는 reasoning이 반드시 선행되어야 한다. 모델은 하나의 동작만 잘 할 수 있다는 사실을 명심하자! 모델은 메타 인지가 없다는 사실 또한 기억하자.
키워드 추출 실험 인사이트는 이번 프로젝트에서 가장 눈길이 갔다.
특히 4번째 가설을 검증해보고 싶다. 그런데 시간이 없다... 우선 묵혀두기로 하고 넘어간다. 특히 첫 번째 인사이트는 바로 적용해서 괜찮은 결과가 나왔다. 3번째 인사이트도 중요하다. 문제는 사실 여러 개념을 물어보는 경우가 거의 없다. 꽤 어려운 문제 말고는 찾기 힘들다. 어려운 문제도 아예 동떨어진 도메인을 물어보진 않는다. 어쩌면 이것도 메타 개념이라고 볼 수 있다. 지금 내 목표는 저 1~2개 키워드를 기깔나게 뽑는거다!
저렇게 뽑힌 위키피디아 문서는 아주 예리하게 작용했다. 단, 문서의 길이가 관건인데, 위키피디아 문서를 문제에 맞게 요약해주는 실험을 하고 있다. 현재 2~3 shots을 적용하고 있는데, 각 예시는 o1 preview로 만든다. 자체 회고가 가능한 모델이다 보니 답변이 상당히 훌륭하다. shot으로서 정말 좋다.
네이버 백과사전 API를 사용하고 싶었는데, URL으로만 제공되는 API였다. 웹 크롤링을 잘 못해서 시간 상 나중으로 미뤄둔다. 정말 시간 관계 상 아쉬운 것들이 너무 많다. 특히 지식 DB를 만들어서 문제를 다양하게 생성하고 싶었는데, 이 또한 아쉽다. 기업 해커톤에서 제발 우리 팀이 하고 싶은데로 다 할 수 있었으면 좋겠다.