텍스트 생성 모델 평가 지표 [Perplexity, BLEU, ROUGE, METEOR]
생성 모델을 평가하는 지표는 Automatic Evaluation 과 Human Evaluation 으로 나눠지는데 이 페이지에서는 텍스트 생성 모델에 대한 Automatic Evaluation 을 살펴보고자 한다. 1. Perplexity [PPL]언어 모델이 샘플을 얼마나 잘 예측하는지 정량화 하는 모델로, 모델이 예측한 확률의 불확실성을 측정하기 때문에 점수가 낮을수록 모델의 성능이 우수하다고 평가한다. 수식은 아래와 같다.$PPL(W) = P(w_1, w_2, w_3, ..., w_N)^{-frac{1}{N}} = N\sqrt{\frac{1}{P(w_1, w_2, ...,w_N)}}$ 2. BLEU [Bilingual Evaluation Understudy]생성된 텍스트와 정답 텍스트 간의 n-..