오늘은 하루 종일 BERT 논문을 리뷰했다. 트랜스포머 논문보다 수월하게 읽혔다. 우선 BERT에서는 구조적인 설명이 비교적 적어졌다. 그리고, 트랜스포머 기반으로 설계된 모델이기 때문에 트랜스포머 배경지식이 많이 필요했다. 아직 구조를 이해하는 속도가 느려서 이번 논문은 상대적으로 속도가 빠르게 읽힌 것 같다.
BERT 논문을 읽으면서 의문점이 생겼다. [EOS]
토큰 설명이 없었다. 시퀀스가 끝나는 걸 표기해야할 것 같은데, 시퀀스 끝을 나타내는 토큰이 없어서 '어떻게 모델 출력이 마무리가 되지?'라는 생각이 들었다.
논문을 읽으면서 소소한 재미는 자랑과 디스전인 것 같다. '우리 모델이 제일 좋아요!'라고 자랑하는 표현이 많다. 수치적으로 SOTA를 달성했다는 이야기도 있지만, 거들먹거리는 표현도 많다. 거들먹거린다고 했지만, 내가 만약 저런 연구를 하면 어깨가 귀밑까지 치솟을 것 같다ㅋㅋ 그리고 꼭 디스 상대가 있었다. BERT의 경우에는 GPT였는데, GPT는 단방향 모델이고 ablation 실험으로 단방향 모델이 좋지 않다는 걸 선보여서 결국 GPT는 나쁘고 우리는 좋다는 인사이트로 수렴했다.
최근에 번아웃이 세게 온 것 같다. 주말에 번아웃 검사를 했다. 처음에는 블로그 같은데 있는 번아웃 자가 진단 리스트로 간단하게 했다. 심한 번아웃이라고 결과가 나와 믿기 싫었다. 번아웃 논문 찾아서 지피티한테 논문에 따른 자가 진단 리스트를 만들어 달라고 했다. 결과는 비슷했다. 인정해야 했다. 기업 해커톤 프로젝트에서 번아웃이 오지 않았음으로 그나마 위안을 얻고 있다.