BERT 논문 리뷰를 마무리했다. 실험을 정말 다양하게 했다고 느꼈다. 다운스트림 테스크 유연성이 좋아서 실험이 다양했던 것 같다. 처음 BERT를 배울 때, [CLS]
토큰을 그냥 분류 토큰 정도로 받아들였다. 논문에서는 [CLS]
토큰이 문장 전체를 압축하는(aggregate) 토큰이라고 표현했다. 그렇기 때문에 저 토큰으로 분류 작업이 가능해진다고 설명했다. 개념의 흐름을 아는 건 정말 중요하다고 생각했다. ablation 실험에서 양방향 참조를 biLSTM으로 대체하는 실험이 인상 깊었다. 동시에 왜 하필이면 biLSTM을 사용했을 지 궁금했다.
BERT 논문 리뷰 스터디를 진행했다. 발표를 맡은 팀원은 GPT와 ELMo 설명을 자세하게 곁들어서 시작했다. ELMo가 순방향과 역방향 벡터를 concat한다는 건 알고 있었는데, 각 방향 별 벡터가 LSTM 층 별 가중치 합으로 도출된다는 사실은 처음 알았다.
기업 해커톤 공지가 올라왔다. 공지를 읽어보니, 기업 별로 니즈가 달랐다. 전체적으로 느낀 점은 기술적인 측면도 중요하지만, 비즈니스 관점이 필요하다고 생각했다. 어쩌면 둘이 연결된다고도 생각했다. On-premise 환경이 그 예시이다. 특히 심사 기준에서 창의성과 같은 다소 전략적인 부분이 대부분의 기업에서 공지됐다. 결과적으로 단순히 우리 이런 개념 잘 알고 이렇게 했다! 정도로는 호소력이 부족하다고 생각했다.