간단하게 물고기 책 4장 문제를 만들었다. 최대한 문제를 헷갈리는 객관식으로 출제하려고 한다. 다른 사람들이 어디서 헷갈려하는지 고민하려고 하는데, 이 과정에서 생각보다 공부가 많이 되는 것 같다. 그들을 설득할 수 있어야하기 때문이다.
데이콘 대회 데이터를 보면서 불용어 처리가 필요로 할지 고민했다. 텍스트 임베딩 과정에서 단어 단위로 임베딩을 한다면 특수문자는 확실히 처리를 해줘야 하는데, 다른 문자는? → bert로 임베딩하면 어떨까 생각해봤다. sbert를 사용했는데, 꽤 오래걸렸다. 그리고 문장 단위가 아닌 문단이어서 적절한 건지도 잘 모르겠다.
피어세션 전
결과가 어떻게 됐든, 1회 제출을 목표로 모델을 돌렸다. BayesSearchCV를 활용한 XGBClassifier 모델인데, 학습에 꽤 오랜 시간이 걸렸다. 텍스트 임베딩부터 학습 과정까지 오랜 시간이 걸리다보니 비효율적이라는 생각이 많이 들었다. 대회에서는 사전 학습된 모델을 학습에 사용하지 못한다고 했는데, 데이콘 참여 목적을 다시 생각해봐야겠다. 이미 끝난 대회라서 사전 학습된 모델을 사용할 것인지, scratch로 모델을 설계할 것인지는 다시 생각해봐야 할 내용이다. public 10.3424447094, private 10.7581928547가 나왔다. 한참은 개선해야하는 수치다.
피어세션 후
첫 MLOps 스터디를 했다. 간단한 소개 이후에 어떤 목표를 가지고 있는지 공유 했고, 앞으로 무엇을 할 건지에 대해서 토의했다. 토의 결과 마스터님이 발표하신 MLOps 전반 사이클 내용에 더불어 각자 서비스를 기획하고 어떤 툴을 왜 사용하는지 작성해 오자는 숙제를 만들었다. 기대가 되면서도 걱정이 되는게, 확실히 재미는 있겠지만 시간이 꽤 많이 들 것 같다.