[부스트캠프] Day 28 회고

Gamchan Kang·2024년 9월 12일
0

10:00 ~ 13:00

  • 서버가 드디어 열렸다. 화요일 타운홀 미팅 영상을 다시 참고하면서 SSH 연결을 했다. 여기서 작동 원리가 궁금한 것이 많았는데, 이거까지 파고들면 시간이 없을 거 같아서 넘겼다. 왜 VPN이 필요한가? 어떻게 업스테이지는 팀 당 v100 서버 4개를 줄 수 있는가? 그리고 그 서버가 할당되는 원리는 어떻게 되는가? VScode로 연결하면서 열리는 vscode server는 어떤 역할을 하고, vscode 구조는 어떻길래 그쪽 서버를 쉽게 볼 수 있는 UI 역할을 하는가? 브라우저랑 비슷한가? 등..
  • 서버를 연결해보니, 건드리기가 망설여졌다. 우리가 무엇을 할지 결정을 안 했기 때문이다. 조금 아쉬운게 협업으로서 프로젝트를 진행하는 것이 아닌, 마치 초등학교 축구와 같이 공을 쫓는 느낌이 들었다. 사실 그럴 수 밖에 없는게, 프로젝트 최종 종착지가 정확도 향상으로 정해져 있다. 그 이상 나아가지는 못하는 셈이다. 회고를 쓰면서 생각한 점인데 이왕 서버가 열린 김에 모델 서빙까지 해 볼까?
  • 브랜치 전략, commit/PR 메세지 컨벤션, 논의해야 할 항목을 정리했다. 대충이라도 훑고 넘어가면 좋겠다싶은 내용이 많았다. 현재까지 협업에서 정해진 내용은 가설-실험-검증 을 우선시하자 밖에 없다.

13:00 ~ 16:00

  • 서버와 Organization 깃헙 레포를 연동했다. 처음에는 내 토큰키를 사용할까 했는데, 내 토큰키가 유출되는게 꺼림직해서 망설였다. 이도 마찬가지로 SSH 키를 사용해 연동했다. 서버에 SSH 키와 에이전트를 할당하고 깃헙과 연동되니 푸쉬와 풀이 다 동작했다. 처음에 configuration을 작성할 때, 내 이메일과 깃헙 닉네임만 받아갔다.
  • 이후 추가 EDA를 했다. 우선 데이터셋은 한국어로 이루어졌는데, 개인 이름을 <PERSON>으로 마스킹해놨다. 마스킹과 유사도 라벨링의 상관 관계를 분석하고, 이를 어떻게 처리할지 EDA를 했다. EDA를 하면서 직접 데이터셋을 들여다보는 것이 생각보다 중요하다는 걸 배웠다. 특히 개수가 적으면 통계치나 시각화보다는 직접 보는게 더 나을 수도 있겠다. EDA 결과 마스킹은 라벨링 이후에 이루어진 것 같다.

16:00 ~ 19:00

  • Round Trip Translation에 대한 재밌는 제안을 검증해보고 있다. 한국어-영어-한국어로 진행되니 다른 언어를 사용하자는 제안이다. 우선 RTT를 사용한 기존의 데이터셋을 분석하고 있다. 양 극단에 모여있을 것 같았던 RTT는 유사한 쪽으로 많이 치우쳐져 있었다. 의외의 인사이트가 나오는 것도 EDA의 묘미인 것 같다.
profile
Someday, the dream will come true

0개의 댓글