gpt4 book ai didi

language-agnostic - 如何评估文本摘要工具?

转载 作者:行者123 更新时间:2023-12-04 16:48:28 24 4
gpt4 key购买 nike

我写了一个系统来总结一个包含数千字的长文档。关于如何在用户调查的背景下评估这样的系统,是否有任何规范?

简而言之,是否有衡量我的工具拯救人类时间的指标?目前,我正在考虑使用(阅读原始文档所花费的时间/阅读摘要所花费的时间)作为确定节省时间的一种方式,但是否有更好的指标?

目前,我正在向用户询问有关摘要准确性的主观问题。

最佳答案

一般来说:

Bleu测量精度 :机器生成的摘要中的单词(和/或 n-gram)出现在人工引用摘要中的数量。

Rouge措施召回 :人工引用摘要中的单词(和/或 n-gram)出现在机器生成的摘要中的数量。

自然 - 这些结果是互补的,就像精度与召回率的情况一样。如果您有很多来自系统结果的单词/ngram 出现在人工引用中,您的 Bleu 将很高,如果您有很多来自系统结果中出现的人工引用的单词/ngram,您的 Rouge 将很高。

有个东西叫 简洁惩罚 ,这非常重要,并且已经添加到标准 Bleu 实现中。它惩罚比引用的一般长度短的系统结果(阅读更多关于它的信息 here)。这补充了 n-gram 度量行为,它实际上惩罚比引用结果更长的时间,因为系统结果越长,分母增长越长。

你也可以为 Rouge 实现类似的东西,但这次惩罚比一般引用长度长的系统结果,否则他们会人为地获得更高的 Rouge 分数(因为结果越长,你击​​中一些的机会就越大出现在引用文献中的词)。在 Rouge 中,我们除以人类引用的长度,因此我们需要对较长的系统结果进行额外的惩罚,这可能会人为地提高他们的 Rouge 分数。

最后,您可以使用 F1 测量 使指标协同工作:F1 = 2 * (Bleu * Rouge)/(Bleu + Rouge)

关于language-agnostic - 如何评估文本摘要工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9879276/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com