A Survey on LLM-generated Text Detection: Necessity, Methods, and Future Directions

ingeol·2023년 11월 2일

목록 보기

6/8

git : https://github.com/nlp2ct/llm-generated-text-detection
watermark in llm : 사람 눈으로 확인하기 어려운 숨겨진 패턴 등을 알고리즘적으로 식별하는 방법 LLM에서 워터마크는 소유권은 물론 콘텐츠의 진위성과 무결성을 입증할 수 있다.

1) LLM은 매우 민감해 프롬프트 그리고 꾸며낸 최신정보들로 업데이트되면 잘못된 정보를 업데이트 하게 되면, 잘못된 정보를 얻어 생성해내는 문제가 존재한다.
2) 악의적인 LLM의 사용으로 인한 위험이 존재한다. (학생들의 에세이 등,,)

언어적특성으로 LLM은 긍정적인 평향을 가지고 학습되기 때문에(학습에 따른 데이터마다 차이가 있음) 생성된 데이터에서 명사, 동사 , 한정사, 접속사, 조동사, coordinating conjunction(등위 접속사), 보조 조동사 등에서 높은 빈도를 가지며 생성한다. 또한 사람에 비해 감정적인 어투등이 적게 드러나고, 분명한 presentation을 한다.

5. Advances in Detector Research

A. Watermarking Technology

컴퓨터비전에서 가짜 예술품을 탐지하는 것에서 부터 시작되었다. 언어모델에서는 시퀀스 증류 등을 통해 위험을 완화할수있다(?) -> LLM 생성 텍스트의 복제 및 오용과 관련,
1) Statistical Method
- 단어가 생성되기 전에 green tokens set을 선택한다. 그리고 남는 토큰은 red token으로 분류된다.
- 단어가 생성되면서 모델은 green set을 선택하는 것이 좋다.
- samping(다음토큰 선택과정) 에서 모델이 green token을 선택 되도록 가이드한다.
- green tokens 선택되는게 좋게 유도하면서 결과로 나온 text가 의미있고 일관되게 된다.
- 해당 과정의 목적은 LLM의 퀄리티를 improve시키고, green tokens의 셋을 선택하면서 model은 token들선택으로부터 제약이 주어지게 된다 -> model이 부적절한 text선택을 예방할 수 있다.
- 시사점 : 해당 접근은 만약 green token을 많이 가지고 있다면 LLM에서부터 생성된것으로 판단 할 수 있게한다. 하지만 해당 방법은 specific한 green token의 정보를 알고있어야 접근가능한 방법이다.
2) Secret Key-Based Watermarking Technology
- DRW(Distillation-Resistant Watermarking)기술은 특정 시그널을 decoded prob vector에 삽입하는 것.
- secret key를 decoding단에 삽입하여 detection 가능하게 한다.
3) backdoor Watermark Technology
- 특정상황에서 active 되게 하는 형식 (전형적인 black box 상황에서)

B. Zero-shot Methods

텍스트의 문법적 분석, 단어 밀도 함수, 길이, 통계적 빈도성 사용등 feature를 뽑아내는 방법이 있으며 최근에는 HowkGPT(2023) 라는 방식은 PPL을 사용해 GPT가 대학과제를 진행한건지 학생이 직접한 건지에 대한 논문이 나옴
뿐만 아니라 n-gram 스코어와 의미론적 관계에 기반한 KL, entropy를 측정해 기계생성 인지 탐지하는 방법(2008), 또한 존재한다.
직관적인 방법으로는 GLTR(2019)이 있다. 해당 방법은 언어모델이 자주쓰는 모델을 marking 및 비율 그리고 분석하여 확인하는 방법을 가진다. 그리고 DetectLLM(2023) 에서는 Log-Likelihoos Log-Rank Ratio 라는 text detection 연산도구를 제안했다. (preformance 향상됨.)
[[23.1 □ Detect GPT]]는 Zero shot 접근방식을 처음으로 시도 하였다. 처음 언어모델이 학습될 때 NLL을 사용한다는 특징을 이용함. 그리고 작은 변화를 통해 [[23.5 ■ Detect LLM]] 이 나왔고 정확도가 75% 정도 나오며 속도는 340 times 감소했다.
최근에 나온 방법 중 Intrinsic Dimension Estimation도 존재하는데 T가 높은경우에 suboptim

C. Fine-tuning Methods

사전학습된 모델들의 사용은 언어적 이해가 풍부하기 때문에 LM 테스크에서 좋은 성능을 보임
1) In-domain Fine-tuning is All you need
- RoBERTa가 좋은 성능을 보임 95%(in-domain setting) 하지만 encoder모델은 lack robustness로 인해 overfit 가능성이 높으며 cross-domain, unseen data에 해당 성능만큼 좋은 성능을 뽑지 못함(한계가 존재).
2) Enhanced Fine-tuning LM
- COCO(2022), ConDA(2023) 이런 모델들이 존재하는데 특정도메인에 대해서 데이터가 제한되어 있을 때 증강을 통한 방법으로 좋은 acc를 얻을 수 있다. 더 디테일한 부분은 5.4section

D. Adversarial Learning Method

※용어 : Break-It-Fix-It strategies - - The goal is to continually break the detection model and then fix it by improving its capability to identify text produced by LLMs.
Paraphrasing - 뜻이 바뀌지 않는 선에서 쓴 말을 다른 단어 등을 사용하여 표현하는 것 (의역 감지, 표절감지 포함 패러프레이징 응용이 다양하다. )

적대적 학습방식 기본은 GAN에서 시작된다. Break-It-Fix-It strategies 으로 attacker 와 defender가 있으며 two-player방식으로 학습이 진행된다. 학습 할 때 augument 를 사용해 defender는 더 강력하게 방어하고 attacker는 계속해서 뚫는 역할.
RADAR 모델은 PPO를 사용해서 feedback을 받는 형식으로 학습 (ps. Robust 함 + 적대적 환경의 새로운 framework)
OUFOX[[23.10 ■OUTFOX]]는 gpt 3.5 tubo 0613 사용함. 또한 ICL논문중 likelihood of detectors 사용했다.
추가적인 방법론 : redteaming, is chatgpt involved in texts?

E. LLMs as Detectors

1) Questionable Reliablity of Using LLMs
- Grover(1.5b, in-domain(news))에서는 매우 좋은 성능을 보임. 하지만, LLM(GPT3.5, GPT4)을 이용한 detector는 성능이 매우 떨어진다. (!!!학습을 진행하지 않고 단순히 prompt만 넣어서 진행해서 낮은 결과가 나온 것은 아닐까?)
2) ICL: A Powerful Technique for LLM-Based Detection:
- ICL 방식은 cue engineering에 전문화 되어 있다. 예시들을 통합해 모델에 단서로 제공되며, 추가적인 finetuning 없이 새로운 작업을 적절히 처리할 수 있게 했다. OUTFOX DETECTOR에서도 해당 방식을 사용하여 전통적인 zero-shot, RoBERTa 방식을 능가했다.
3) LLM's Paternity Testing
- Fighting Fire with Fire 논문 방식은 검토중인 텍스트의 문제를 추론하고 추론된 문제를 바탕으로 텍스트를 재생성 -> 재생성된 텍스트와 검사된 텍스트간의 유사성에 따라 detection 수행되는 방식,
- 견고하고, paraphrasing 좋은 새로운 방식이지만 RoBERTa 보다 성능이 안나오며, 더 발전되어야 하는 기술

F. Human-assisted Methods

인간의 해석능력과 detection 과정에서의 신뢰를 바탕으로 하는 방법
GLTR이 대표적인 방식(원래는 visual forensic)
Real or Fake Text? 라는 논문에서는 인간(annotator)과 상호작용을 통해 특정장르에서 detection 하기 어려운 부분을 해결할 수 있는 특징을 가짐.
Mixed-Initiative 라는 논문은 과학과 같은 전문성이 필요한 분야에 전문가(사람)가 label을 만들고 기계가 학습했을 때 더 좋은 결과가 나온다.

(!!! 나만의 결론 테스크에 잘나오는 큰모델과 RoBERTa 를 사용해 adversarial 학습 진행해보자 + 해당 논문들이 제시한 방법들을 더 찾아보자)

ingeol

이전 포스트

Machine-Generated Text: A Comprehensive Survey of Threat Models and Detection Methods

다음 포스트