[부스트캠프] Day 27 회고

Gamchan Kang·2024년 9월 11일
0

10:00 ~ 13:00

  • 프로젝트 데이터 EDA를 시작했다. 이전 기수 캠퍼 분의 깃헙 레포에서 EDA 코드를 구했다. 이 덕에 시간을 많이 줄였다. 각자 그 코드를 베이스라인으로 추가 EDA를 시작했다. 나는 우선 연역적으로 생각해봤다. 데이터셋 설명을 다시 꼼꼼히 체크해보면서 다시 생각할 거리가 있는지 확인해봤다. 사람이 직접 평가한 지표를 추론하는 문제이다 보니, 라벨 값 기준이 일정하지 않을 것이라 생각했다. 유사도의 판단 기준도 모호해서 모델이 잘 학습할 수 있을지 모르겠다.

13:00 ~ 16:00

  • 어제 피어세션때 공유한 바로는 label값이 2 이하이거나 3 이상이면 연관성이 뚜렷하게 드러나는데, 그 사이 지점에서 애매했다고 한다. 나는 그 점에서 착안해 경계값이 2~3인 데이터를 집중 공략했다. 파이차트로 비교해보니 텍스트 출처에서 미세한 차이가 있었다. 슬랙 대화를 Round-trip translation한 텍스트 데이터가 유난히 줄어 들었는데, 구어체나 비문에 가까운 슬랙 메세지가 번역기에 입력되면서 오류가 발생할 가능성이 높아보였다.
  • 형태소 분석 후 토큰 공유 비율을 도출해봤다.

생각보다 경향성이 뚜렷했다. 하지만 경계값에서는 경향성의 의미가 없었다. 양 끝 값에서는 비율이 급격히 높아져서 전반적으로 상관계수 값이 높은 것 같다. 경계값에서 잘라내 상관계수를 계산하면 무경향성을 뚜렷하게 확인했다.

16:00 ~ 19:00

  • 피어세션을 진행하면서 EDA 인사이트를 교환했다. 정답이 없다보니 다양한 관점을 보았다. 특히 데이터 분석을 바탕으로 제안하는 내용이 다양했다. 재밌는 의견이 많이 나오다보니 배울 점이 많았다. 한 가지 걱정인 점은 개발 프로세스가 정해지지 않다보니 당장 다음에 할 일을 즉흥적으로 정한다는 점이다.
  • 마스터 클래스를 들으면서 확실히 LLM을 직접 설계하는 것은 어렵겠다는 생각이 들었다. 이 분야에 처음 들어왔을때, 내가 직접 만들어볼 수 있다는 착각으로 들어왔다. 하지만 당장 맨 처음 배운 C 언어부터 정교하게 설계된 언어라는 점을 간과하고 있었다.
profile
Someday, the dream will come true

0개의 댓글