gpt4 book ai didi

nlp - 文本摘要评估 - BLEU 与 ROUGE

转载 作者:行者123 更新时间:2023-12-02 10:39:08 71 4
gpt4 key购买 nike

根据两个不同摘要系统(sys1 和 sys2)的结果和相同的引用摘要,我使用 BLEU 和 ROUGE 对其进行了评估。问题是:sys1 的所有 ROUGE 分数均高于 sys2(ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-4、ROUGE-L、ROUGE-SU4,...),但 sys1 的 BLEU 分数较低比 sys2 的 BLEU 分数(相当多)。

所以我的问题是:ROUGE和BLEU都是基于n-gram来衡量系统摘要和人类摘要之间的相似度。那么为什么评估结果会出现这样的差异呢? ROUGE 与 BLEU 的主要区别是什么来解释这个问题?

最佳答案

一般来说:

Bleu 测量精度:机器生成的摘要中的单词(和/或 n-gram)在人类引用摘要中出现的程度。

Rouge 衡量召回率:人类引用摘要中的单词(和/或 n-gram)有多少出现在机器生成的摘要中。

当然,这些结果是互补的,就像精确率与召回率中经常出现的情况一样。如果系统结果中的许多单词出现在人类引用中,您将获得高 Bleu,如果系统结果中出现许多人类引用中的单词,您将获得高 Rouge。

在您的情况下,sys1 的 Rouge 值似乎高于 sys2,因为 sys1 中的结果始终比 sys2 的结果中出现更多来自人类引用的单词。但是,由于您的 Bleu 分数显示 sys1 的召回率低于 sys2,因此这表明相对于 sys2,人类引用文献中出现的 sys1 结果中的单词并不多。

例如,如果您的 sys1 输出的结果包含引用文献中的单词(提高 Rouge),但也包含许多引用文献未包含的单词(降低 Bleu),则可能会发生这种情况。 sys2,看起来,给出的结果是大多数输出​​的单词确实出现在人类引用中(增加蓝色),但也从其结果中丢失了许多确实出现在人类引用中的单词。

顺便说一句,有一种叫做简洁性惩罚的东西,它非常重要,并且已经添加到标准 Bleu 实现中。它会惩罚比引用的一般长度的系统结果(阅读更多相关信息 here )。这补充了 n 元语法度量行为,该行为实际上会比引用结果惩罚更长的时间,因为系统结果越长,分母就越长。

您也可以为 Rouge 实现类似的功能,但是这次惩罚比一般引用长度更长的系统结果,否则他们会人为地获得更高的 Rouge 分数(因为越长的引用长度)结果,您遇到引用文献中出现的某个单词的机会就越高)。在 Rouge 中,我们除以人类引用的长度,因此我们需要对较长的系统结果进行额外的惩罚,这可能会人为地提高他们的 Rouge 分数。

最后,您可以使用F1 度量使指标协同工作:F1 = 2 *(蓝色 * 红色)/(蓝色 + 红色)

关于nlp - 文本摘要评估 - BLEU 与 ROUGE,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38045290/

71 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com