[부스트캠프] Day 34 회고

Gamchan Kang·2024년 9월 26일

부스트캠프 AI NLP 7주차

목록 보기

2/3

10:00 ~ 13:00

ToT를 적용한 프롬프트로 데이터 증강을 해봤다. 어제 짰던 프롬프트보다 케이스를 더 나누고 세부적인 명령을 넣었다.

당신은 한국어 문법 전문가입니다. 사용자가 입력한 두 문장의 문법적, 실제 의미를 유지하면서 부사어만 수정하여 새로운 문장을 생성하는 작업을 수행해야 합니다. 이 작업을 위해 다음의 단계를 따르되, 각 단계에서 여러 가능성을 고려하고 평가하여 최적의 결과를 선택하세요.

1. 문법 평가 단계:
    a) 입력된 두 문장의 문법을 평가합니다.
    b) 각 문장에 대해 문법적 오류 가능성을 0-100%로 평가합니다.
    c) 가장 신뢰도 높은 평가를 선택합니다.

2. 문장 교정 단계 (필요시):
    a) 문법적 오류가 있다고 판단된 경우, 최소 3가지 이상의 교정 방안을 제시합니다.
    b) 각 교정 방안에 대해 원문과의 유사도를 0-100%로 평가합니다.
    c) 유사도가 가장 높은 교정안을 선택합니다.

3. 부사어 식별 단계:
    a) 각 문장에서 부사어와 조사를 식별합니다.
    b) 식별된 요소들의 기능과 중요도를 0-10으로 평가합니다.
    c) 가장 높은 점수를 받은 요소들을 선택합니다.

4. 새로운 문장 생성 단계:
    a) 각 문장에 대해 부사어와 조사만을 수정하여 5개의 새로운 후보 문장을 생성합니다.
    b) 각 후보 문장에 대해 원문과의 의미 유사도를 0-100%로 평가합니다.
    c) 가장 높은 유사도를 가진 상위 3개의 후보를 선택합니다.

5. 최종 선택 단계:
    a) 선택된 3개의 후보 문장 각각에 대해 문법적 정확성, 의미 유사성, 자연스러움을 종합적으로 0-10으로 평가합니다.
    b) 가장 높은 종합 점수를 받은 문장을 최종 선택합니다.

원본 문장:
1. {sentence_1}
2. {sentence_2}

다음 JSON 형식으로 최종 선택된 새로운 문장들만 정확히 응답해주세요:
{format_instructions}

다른 설명이나 추가 텍스트 없이 오직 위의 JSON 형식만으로 응답하세요.

직접 데이터를 살펴보니 기존 프롬프트보다 더 정확한 증강을 했다. 우선 의미가 아예 뒤바뀌는 데이터가 줄었다. 같은 temperature(0.7)로 실험했을 때, 일본어를 출력하는 비율도 현저히 줄었다.

데이터 증강을 돌리면서 틈틈이 밀린 강좌를 들었다. 생각보다 유용한 정보가 많았다. 프로젝트를 진행하며 강좌를 어떻게 병행할지 다시 생각해봐야겠다. 지금 생각나는 개선 방향은 강의 노트를 빠르게 훑어보고 프로젝트를 진행하며 프로젝트에 필요한 정보를 강의에서 찾는 방식이다. 하지만 프로젝트 진행 속도가 더뎌질 것이고, 필요한 개념이 강의에 있는지 떠올리는 메타인지가 제대로 동작할 지 의문이다.

13:00 ~ 16:00

맞춤법 검사를 돌린 데이터를 증강했다. 이후 출처 별로 나눈 electra 모델로 학습했다. 제출 결과 그렇게 성능이 좋지는 않았다. 데이터 증강 이후 학습 데이터 유사도 label과 비교하면서 주어진 label 기준과 증강된 데이터가 덜 부합하다고 생각했는데, 우려했던 점이 나타났다. 며칠에 걸쳐서 증강한 데이터가 필요 없어졌지만, langchain 사용 방법과 프롬프트 엔지니어링을 제대로 적용한 첫 사례에 의의가 있었다.

16:00 ~ 19:00

프로젝트 끝 무렵이라서 첫 팀플 후기를 각자 나눴다. 대체적으로 의견 교환에서 답답함을 느낀 것 같다. 온라인이라는 한계점을 어떻게 극복할 수 있을지 고민이 필요하다.

Gamchan Kang

Someday, the dream will come true

이전 포스트

[부스트캠프] Day 33 회고

다음 포스트

[부스트캠프] Day 34 회고

부스트캠프 AI NLP 7주차

10:00 ~ 13:00

13:00 ~ 16:00

16:00 ~ 19:00

[부스트캠프] Day 33 회고

[부스트캠프] Day 35 회고

0개의 댓글