오전 내내 정수 인코딩 라벨 정보와 실제 카테고리를 어떻게 매핑할 지 고민했다. 처음 생각한 방법은 gemma2로 정상 라벨링 데이터(아스키 오염이 정제된)를 클러스터링해서 매핑하는 방법이었다. 이 방법을 적용하니, 너무 오랜 시간이 걸렸다.
두 번째 생각한 방법은 데이터 EDA로 매핑 정보를 파악하는 방법이었다. 하지만 이는 이전에 시도했던 임베딩 벡터 클러스터링과 매우 유사했다. 거의 똑같았다. 정확도 보장이 어려웠다.
팀원들과 이 문제에 대해 토론 했다. 매핑 정보를 쓰면 된다고 했는데, 대회 규칙에 위반된다고 생각했다. 오랜 토론 끝에 다른 팀원이 매핑 정보를 이미 알아냈다고 했다! 서로 다른 일을 가리키면서 토론을 하고 있었으니 토론이 진행이 안 됐다. 구체적인 사항은 다음과 같았다.
이제야 어제부터 고민한 내용을 해결했다. 이후 데이터 증강을 시도했다. 프로젝트 막바지에 서버가 북적거려서 로컬에서 진행하기로 했다. 처음으로 시도해볼 방법이 RI, RS, SR 같은 방법이었는데, 형태소 분석으로 접근하려고 했다. 한국어 형태소 분석은 okt든 kkma든 Jython 기반 프레임워크를 사용할 가능성이 높다는 뜻이고, 내 로컬에서 Java 환경은 박살이 나 있었다... openjdk 관련 오류가 계속 발생했는데, 수많은 방법을 시도했음에도 해결 못하고 덮어놓았었다.
이게 아니면 내가 끼어들 일이 없었기에 openjdk 오류를 수정하고 있었다. 그런데 이 일이 화근이 됐다. 터미널 스크립트 설정 파일을 출력하려다가 실수로 echo > ~/.zshrc
커멘드를 입력해버렸다... 입력하면 ~/.zshrc
파일 내용이 전부 날아가는 커멘드이다....
현타가 와서 18:45분 이후 15분 동안 멍때렸다. 이후에 현업자 친구한테 이 상황을 말하니 터미널 스크립트 설정 파일도 버전 관리를 철저히 해야 한다고 했다. 버전 관리와 백업... 정말 중요하다.