어제 Ko-Llama3로 노이즈 데이터 필터링을 시도했다가 실패했다. 답변 컨트롤이 너무 어려웠다. 낮은 정확도는 덤. seed랑 temperature를 컨트롤할 생각 조차 하지 못했다. 항상 균일한 동작! 우연에 기대지 말자.그와 별개로 오늘은 다른 팀원들이 한 노이
어제 쉬면서도 어떻게 라벨링을 바로 잡을 지 고민했다. 나는 부스트캠프 일과가 끝나면 적어도 8시까지는 마무리하고 쉰다. 밤 늦게까지하면 마라톤 같은 커리큘럼을 버티지 못 할 거라 생각했기 때문이다. 하지만 어제는 라벨링 고민으로 쉬면서도 따로 찾아봤다. 그렇게 고민했
오전 내내 정수 인코딩 라벨 정보와 실제 카테고리를 어떻게 매핑할 지 고민했다. 처음 생각한 방법은 gemma2로 정상 라벨링 데이터(아스키 오염이 정제된)를 클러스터링해서 매핑하는 방법이었다. 이 방법을 적용하니, 너무 오랜 시간이 걸렸다.두 번째 생각한 방법은 데이
어제 저녁에 BERT 마스킹을 했다. Bert multilingual 토크나이저로 인코딩 → 마스킹 → 디코딩한 새로운 텍스트를 증강했다. 하지만 마스킹 증강 특성 상 데이터 다양성이 떨어졌다. 똑같은 증강 데이터를 도출하는 경우도 있었다. korSTS 사전 학습 모델
README를 정리하면서 문서 구성에 가장 많은 시간이 걸린다. 이전에 했던 프로젝트와 사뭇 다른 테스크이기도 하고, 이전과 협업 방식에 차이가 있었다. 또한 대회 룰이 모호해 모든 문서를 README하나로 요약하기에는 문서가 너무 길어졌다.