오전 절반을 HRD-Net 출석부 관련해서 소비했다. 구직촉진수당을 신청하는데 임시 출석부와 전산 상 출결이 달라 수당 신청이 안 된다는 연락을 받았다. 차라리 내가 잘 못 한거면 자책이라도 할 텐데, 부스트캠프 운영진 측에서 2주차부터 HRD-Net 출결 처리를 시작해서 일이 많이 꼬였다. 성남고용센터에 여러 차례 전화하고 국취제 상담사하고도 여러 차례 전화했다. 이런 일이 있고나서 또 느꼈다. 나는 행정 업무가 너무 싫다. 너무 비효율적이다. 최대한 이런 시스템을 고치고 싶다.
13:00 ~ 16:00
Rolled/Unrolled RNN, Multi-layer/Bidirectional RNN 등 다양한 형태의 RNN을 배웠다. 간단한 개념이라고 생각하고 쉽사리 넘어갔지만 역시 간단할 수록 활용도는 높아지는 것 같다.
Backprop. Through Time(BPTT)은 전체 시퀀스에서 그래디언트를 계산함으로써 역전파 연산을 수행하며 계산 비용과 리소스를 많이 사용한다는 단점이 있다. 최근 모델에서는 잘 사용하지 않을 듯? 특히 LLM과 같이 십억 단위 파라미터가 있다면...
Truncated Backprop. Through Time은 위 방법에서 청크 단위로 쪼갠 다음 내부에서만 역전파 연산을 수행한다.
RNN의 기울시 소실/폭발 문제를 행렬의 거듭제곱으로 증명할 수 있다! Eigendecomp.를 통해. 까먹고 있던 선형대수 내용이었다. 수학, 특히 선형대수학은 인사이트를 통찰하기에 좋은 학문인 듯.
LSTM의 전반적인 키워드가 있는데 나는 그 중 Convex Sum이라는 키워드가 가장 마음에 든다!! y=β(x)x+α(x)f(x)라는 간단한 수식으로 구조를 파악할 수 있다.😎
16:00 ~ 19:00
과제 2를 하는데 많은 부분에서 막혔다. 우선 데이터셋 URL이 막혔다. 아마존 서버가 막힌 걸로 보아 아마 제공하는 측에서 막은 듯? 두 번째로 BPE 구현에서 막혔다. 러프하게 코딩할 까 고민하다가 최대한 시간 복잡도를 줄이는 방향으로 가고 싶은데, 고민하다 보니 많이 막힌 듯... PS를 다시 시작해야 되나 싶다.