git : https://github.com/nlp2ct/llm-generated-text-detection
watermark in llm : 사람 눈으로 확인하기 어려운 숨겨진 패턴 등을 알고리즘적으로 식별하는 방법 LLM에서 워터마크는 소유권은 물론 콘텐츠의 진위성과 무결성을 입증할 수 있다.
1) LLM은 매우 민감해 프롬프트 그리고 꾸며낸 최신정보들로 업데이트되면 잘못된 정보를 업데이트 하게 되면, 잘못된 정보를 얻어 생성해내는 문제가 존재한다.
2) 악의적인 LLM의 사용으로 인한 위험이 존재한다. (학생들의 에세이 등,,)
언어적특성으로 LLM은 긍정적인 평향을 가지고 학습되기 때문에(학습에 따른 데이터마다 차이가 있음) 생성된 데이터에서 명사, 동사 , 한정사, 접속사, 조동사, coordinating conjunction(등위 접속사), 보조 조동사 등에서 높은 빈도를 가지며 생성한다. 또한 사람에 비해 감정적인 어투등이 적게 드러나고, 분명한 presentation을 한다.
컴퓨터비전에서 가짜 예술품을 탐지하는 것에서 부터 시작되었다. 언어모델에서는 시퀀스 증류 등을 통해 위험을 완화할수있다(?) -> LLM 생성 텍스트의 복제 및 오용과 관련,
1) Statistical Method
- 단어가 생성되기 전에 green tokens set을 선택한다. 그리고 남는 토큰은 red token으로 분류된다.
- 단어가 생성되면서 모델은 green set을 선택하는 것이 좋다.
- samping(다음토큰 선택과정) 에서 모델이 green token을 선택 되도록 가이드한다.
- green tokens 선택되는게 좋게 유도하면서 결과로 나온 text가 의미있고 일관되게 된다.
- 해당 과정의 목적은 LLM의 퀄리티를 improve시키고, green tokens의 셋을 선택하면서 model은 token들선택으로부터 제약이 주어지게 된다 -> model이 부적절한 text선택을 예방할 수 있다.
- 시사점 : 해당 접근은 만약 green token을 많이 가지고 있다면 LLM에서부터 생성된것으로 판단 할 수 있게한다. 하지만 해당 방법은 specific한 green token의 정보를 알고있어야 접근가능한 방법이다.
2) Secret Key-Based Watermarking Technology
- DRW(Distillation-Resistant Watermarking)기술은 특정 시그널을 decoded prob vector에 삽입하는 것.
- secret key를 decoding단에 삽입하여 detection 가능하게 한다.
3) backdoor Watermark Technology
- 특정상황에서 active 되게 하는 형식 (전형적인 black box 상황에서)
※용어 : Break-It-Fix-It strategies - - The goal is to continually break the detection model and then fix it by improving its capability to identify text produced by LLMs.
Paraphrasing - 뜻이 바뀌지 않는 선에서 쓴 말을 다른 단어 등을 사용하여 표현하는 것 (의역 감지, 표절감지 포함 패러프레이징 응용이 다양하다. )
1) Questionable Reliablity of Using LLMs
- Grover(1.5b, in-domain(news))에서는 매우 좋은 성능을 보임. 하지만, LLM(GPT3.5, GPT4)을 이용한 detector는 성능이 매우 떨어진다. (!!!학습을 진행하지 않고 단순히 prompt만 넣어서 진행해서 낮은 결과가 나온 것은 아닐까?)
2) ICL: A Powerful Technique for LLM-Based Detection:
- ICL 방식은 cue engineering에 전문화 되어 있다. 예시들을 통합해 모델에 단서로 제공되며, 추가적인 finetuning 없이 새로운 작업을 적절히 처리할 수 있게 했다. OUTFOX DETECTOR에서도 해당 방식을 사용하여 전통적인 zero-shot, RoBERTa 방식을 능가했다.
3) LLM's Paternity Testing
- Fighting Fire with Fire 논문 방식은 검토중인 텍스트의 문제를 추론하고 추론된 문제를 바탕으로 텍스트를 재생성 -> 재생성된 텍스트와 검사된 텍스트간의 유사성에 따라 detection 수행되는 방식,
- 견고하고, paraphrasing 좋은 새로운 방식이지만 RoBERTa 보다 성능이 안나오며, 더 발전되어야 하는 기술
인간의 해석능력과 detection 과정에서의 신뢰를 바탕으로 하는 방법
GLTR이 대표적인 방식(원래는 visual forensic)
Real or Fake Text? 라는 논문에서는 인간(annotator)과 상호작용을 통해 특정장르에서 detection 하기 어려운 부분을 해결할 수 있는 특징을 가짐.
Mixed-Initiative 라는 논문은 과학과 같은 전문성이 필요한 분야에 전문가(사람)가 label을 만들고 기계가 학습했을 때 더 좋은 결과가 나온다.
(!!! 나만의 결론 테스크에 잘나오는 큰모델과 RoBERTa 를 사용해 adversarial 학습 진행해보자 + 해당 논문들이 제시한 방법들을 더 찾아보자)