[부스트캠프] Day 25 회고

Gamchan Kang·2024년 9월 9일
0

10:00 ~ 13:00

  • 문장 간 유사도 키워드를 조사해오기로 했다. 내일부터 프로젝트 시작인데, 문제 정의가 불분명하다는 생각을 했다. 아직 공개된 정보가 별로 없기 때문이다.
  1. 문장이 우리가 일상에서 사용하는 문장과 같은 의미인지, 텍스트 자체를 의미하는 것인지, 데이터 크기나 텍스트 길이는 어느 정도인지 감이 오지 않는다.
  2. 유사도의 의미를 다시 생각해야 한다. 단순히 일치하는 문자가 높은지(만약에 이거라면 AI 프로젝트가 아니겠지만) 의미, 문체, 상황과 같은 텍스트 바깥에서 관점인지도 중요하다.

13:00 ~ 16:00

  • 챗지피티로 문장 간 유사도 모델이 사용되는 시나리오를 5개 만들었다. 시나리오 별로 NLP 테스크가 다르도록 만들었더니 다양한 새 키워드를 발굴했다. 특히 법률 쪽 NLP 테스크가 타 도메인과 조금 다른 것이 신기했다.
  • 오전에 발견한 키워드 중 퍼지 매칭(Fuzzy Matching)을 찾아봤다. 퍼지 매칭은 근본적으로 문자를 일일히 탐색하는 알고리즘으로 AI와 거리가 있다. 하지만, 피쳐 엔지니어링 과정에서 추가 피쳐로 사용될 수도 있고, AI 모델과 같이 사용하면 다방면의 유사도를 찾을 수 있다.

16:00 ~ 19:00

  • 피어세션때 부스트캠프 참여 계기랑 프로젝트 방향성을 공유했다. 통일할 필요는 없지만, 공유는 필요하다고 생각한다. 공유하고 나니 서로 생각하는게 살짝 다르면서 비슷한 맥락이었다.
  • MLOps 스터디 회의가 있었다. 돌아가면서 코드 리뷰를 하고 모델 서빙 툴에 대해서 장단점과 방향성을 발표하며 공유했다. 우선 내가 할 일은 commit, PR 컨벤션 자료를 찾고 FastAPI/BentoML 중 하나는 무조건 사용해서 모델 서빙을 해보고 MLflow 모델 레지스터리 기능도 사용해보는 것이 다다음주 월요일까지 목표이다.
    찍먹이라서 아쉬운 것도 있지만, 메타인지를 잡아가는 과정이라 생각한다.
profile
Someday, the dream will come true

0개의 댓글