Teacher-Student 모델을 도입하려고 했다. 그러나 데이터 분포가 여러모로 이상하다는 걸 발견했다. 우선, 문제 자체가 이상한 경우가 많았다. 문제 지시 사항이 모호해서 무엇을 대상으로 문제를 풀어야 하는지 불분명한 경우다. 그 다음, 문제 유형이 수능과 다른 경우도 많았다. 지문 길이도 그렇고, <보기>와 같은 추가 지문이 없었다. 팀원 형과 토론한 결과 위키피디아 문서를 바탕으로 수능 문제 형식으로 데이터 증강을 하기로 했다.
이슈를 작성하면서 어떤 서브 테스크가 있는지 분석했다. 생각한 서브 테스크는 다음과 같았다.
적합한 키워드 선정 → 위키피디아 문서 크롤링 → 문서 가공 및 추가 지문 확보 → 질문 및 선지 생성 → 검토 후 데이터셋과 동일한 형식으로 파싱
문서를 가공하고 질문과 선지를 생성하는게 만만치 않을 것이라 예상된다.
컴퍼니데이와 피어세션, 두런두런을 진행해서 이슈 작성에만 모든 시간을 할애했다.
컴퍼니데이에서는 노타AI 관계자분의 설명을 들었다. 기업 문화 중 건설적인 토론과 "commit"이 기억에 남았다. 다만, 다양한 분야에 걸쳐 AI 솔루션을 제공하는 기업인 만큼 창의적인 문제 해결을 중시할 줄 알았지만, 깊은 고민보다는 바로 행동으로 옮기는 걸 선호하는 것처럼 보였다. 질의응답 시간에서 나는 문제 해결력과 같은 정성적인 지표를 어떻게 어필하는지 물어봤는데, 확실한 지표를 원한다고 했다. 원래도 어렴풋이 알고 있었지만, 신입에게는 정성적인 능력을 크게 원하지 않는 것 같다. 이런 세태가 아쉽긴 하지만, 뭐 어쩌겠어.
두런두런 시간에는 이력서 노하우를 얻었다. 아무래도 컴퍼니데이 다음 이력서 노하우를 들으니 감회가 새로웠다. 주요 원칙은 다음과 같았다.
마치 썸타기 전 간보는 것 같았다. 다만, 내가 철저한 을이라는 점이 다르다.
이후 rebase로 깃을 정리하는 과정에서 꼬였다. 이제까지 CLI로 모든 이슈를 해결했다. GUI만 사용할 줄 안다면, 클라우드와 같은 GUI를 사용하지 못하는 환경에서 고생할 수 있다는 이야기 때문이었다. 지금은 오히려 Git Graph와 같은 GUI 툴이 더 어색했다.