본문 바로가기

ML-DL/생성AI

텍스트 생성 모델 평가 지표 [Perplexity, BLEU, ROUGE, METEOR]

생성 모델을 평가하는 지표는 Automatic Evaluation 과 Human Evaluation 으로 나눠지는데 이 페이지에서는 텍스트 생성 모델에 대한 Automatic Evaluation 을 살펴보고자 한다.

 

1. Perplexity [PPL]

언어 모델이 샘플을 얼마나 잘 예측하는지 정량화 하는 모델로, 모델이 예측한 확률의 불확실성을 측정하기 때문에 점수가 낮을수록 모델의 성능이 우수하다고 평가한다.

 

수식은 아래와 같다.

$PPL(W) = P(w_1, w_2, w_3, ..., w_N)^{-frac{1}{N}} = N\sqrt{\frac{1}{P(w_1, w_2, ...,w_N)}}$

 

 

2. BLEU [Bilingual Evaluation Understudy]

생성된 텍스트와 정답 텍스트 간의 n-그램 일치도를 측정하는 모델로 번역과 요약 평가에 많이 사용된다.

 

계산 방법은 다음과 같다.

일치하는 n-그램 수 계산 -> 정확도[precision] 계산 -> BP[Brevity Penalty] 적용 -> BLEU 계산

 

BP [Brevity Penalty]?

BLEU 의 경우 생성된 텍스트가 짧은 경우에도 높은 점수를 받을 수 있기 때문에 이를 방지하기 위한 패널티를 말한다. 생성된 텍스트가 정답 텍스트보다 짧을수록 점수를 낮춘다.

 

$BP = \left\{\begin{matrix} 1 & if \; c > r \\ e^{(1-\frac{r}{c})} & if \; c \leq r \\ \end{matrix}\right.$

여기서 $c$는 생성된 텍스트의 길이, $r$은 정답 텍스트의 길이를 말한다.

 

BLEU 수식

$BLEU = BP \times exp(\sum_{n=1}^{N}w_nlogp_n)$

여기서 $w_n$은 n-그램 가중치, $p_n$은 n-그램 정확도를 말한다.

 

BLEU의 장/단점

장점 : 빠르고 반복된 실험에서 유용하며 여러 정답 문장이 있어도 적절한 점수를 제공한다.

단점 : 어순이 바뀌거나 동의어가 사용되는 경우에도 패널티가 적용되며, 생성된 텍스트의 문법적으로 유창하거나 의미적으로 정확한지는 평가하지 못한다.

 

 

3. ROUGE [Recall-Oriented Understudy for Gisting Evaluation]

생성된 텍스트와 정답 텍스트 간의 단어 및 문장 수준의 일치를 측정하는 모델로, n-그램 일치도와 LCS[Longest Common Subsequence]를 기반으로 평가하고 변형된 모델이 다양하게 존재한다.

 

이 지표의 경우 변형된 경우도 함께 소개하기 위해 따로 글을 작성할 예정이다.

 

 

4. METEOR [Metric for Evaluation of Translation with Explicit ORdering]

BLEU의 단점을 보완하기 위한 지표로 텍스트의 유사성이나 파생어 등을 고려하여 평가한다. 어휘의 유사성과 문장 구조 등을 세밀하게 반영하여 BLEU의 단점으로 꼽힌 동의어나 변화에 대해 유연한 평가를 가져갈 수 있다.

 

계산 방법은 다음과 같다.

정답과 예측한 텍스트에서 동일한 의미의 단어 쌍을 매칭 [이때 동의어도 포함] -> 정밀도&재현율 계산 -> F-Score 계산 -> 매칭된 단어 순서 패널티 적용 -> METEOR 계산

 

METEOR의 장/단점

장점 : BLEU에 비해 문장 의미와 구조를 더 유연하게 평가할 수 있으며, 짧은 번역에 높은 점수를 주는 문제를 해결한다.

단점 : BLEU보다 연산이 복잡하여 시간이 더 걸리고 특정 언어나 문장 구조에서 약한 부분이 있다.

'ML-DL > 생성AI' 카테고리의 다른 글

[Paper Review] Auto-Encoding Variational Bayes 리뷰  (2) 2024.08.31