DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of Machine-Generated Text

ingeol·2023년 11월 2일

목록 보기

8/8

용어

negative curvature of the log likelihood of the text : 기계가 생성한 probability를 측정한다. curvature of the log likelihood는 이 probability의 곡률(shape)을 의미한다. 몇몇 variable (ex) length of text) 등의 feature를 가지고 log likelihood 를 plot 시킨다.

curve with negative curvature 은 text의 길이가 증가할 때 log likelihood가 감소하는 것을 의미한다. 다르게 말하면 길게 생성된 문장은 기계가 생성했을 가능성이 적다(?), 이게 말이 되는 점은 글이 길어질 수록 더 복잡하고 정교한 언어적 스킬을 요구하게된다...(?)

perturbations : 모델자체 혹은 input에 작은변화를 주어 영향을 분석하는 기법

entropy : 텍스트에서 단어나 문자 분포의 무질서 또는 무작위 정보를 나타낸다.
-> human generated text : 단어와 문자의 분포에 있어 무작위성과 예측 불가능 성이 낮다. 좀더 구조화 되고 예측 가능성이 크다. 반면에 언어모델이 생성한 것은 확률을 기반으로 텍스트를 생성하므로 문자 분포에 있어 더 높은 무작위성과 예측 불가능성이 발생한다.

Abstract

Improved Zero-Shot Approaches by Leveraging Log Rank Information

Log-Likelihood Log-Rank Ratio(LRR)

\begin{aligned} \mathrm{LRR} & =\left|\frac{\frac{1}{t} \sum_{i=1}^t \log p_\theta\left(x_i \mid x_{<i}\right)}{\frac{1}{t} \sum_{i=1}^t \log r_\theta\left(x_i \mid x_{<i}\right)}\right| \\ & =-\frac{\sum_{i=1}^t \log p_\theta\left(x_i \mid x_{<i}\right)}{\sum_{i=1}^t \log r_\theta\left(x_i \mid x_{<i}\right)}, \end{aligned}

$r_\theta\left(x_i \mid x_{<i}\right)$ 이부분은 rank of token $x_{i}$ 를 의미한다 이전 토크느들의 조건부 확률이다.
Log Likelihood : $\sum_{i=1}^t \log p_\theta\left(x_i \mid x_{<i}\right)$ : 분자에 들어가는 부분 올바른 토큰에 대한 절대 신뢰도를 나타낸다.
Log rank : $\sum_{i=1}^t \log r_\theta\left(x_i \mid x_{<i}\right)$ : 분모에 들어가는 부분 텍스트에 대한 보와정보를 나타내느 ㄴ상대적 신뢰도를 나타낸다.
LRR은 일반적으로 넓은 machine generated text가 나타난다.

Normalized Log-Rank Perturbation(NPR)

$NPR = \frac{\frac{1}{n}\sum_{p=1}^n \log r_\theta(\tilde{x}_{p})}{\log r_\theta{(x)}}$
$\tilde{x}_{p}$ 에서 p는 target x 에 대해 pertubation적용된 것을 의미한다. 여기서 pertubation은 minor rewrites of the text (약간 단어정도의 변화, 재배치 등)
NPR의 설명 : small pertubation은 log rank를 증가시키게 되는데, 이때 machine generated text의 경우 사람이 작성한 것에 비해 더 민감하게 작용한다. -> log rank 가 더 크게 증가한다. 라고 주장함.

Experiement

1.5b에서 20b 까지 실험을 진행, pertubation 모델로 t5-3b 사용함. 모든 실험에서 50 번 input text를 perturb(많이 진행할 수록 성능 늘어남 Figure 2) 했다. T = 1,

기존 zero-shot 방법론들(log, rank, log-rank, entropy, detectGPT) 방식들과 비교함.!

만약 T값이 0.95 보다 작아지면 LRR의 결과가 더 좋게 나오게 된다. 또한 detect gpt가 pertubation100회 실시할 때랑 NPR방식 10번 실시한것과 점수가 유사하게 나온다.

ingeol

이전 포스트