gpt4 book ai didi

machine-learning - 子词 NMT 的 BLEU 分数应该根据子词计算还是应该先连接?

转载 作者:行者123 更新时间:2023-11-30 09:39:33 26 4
gpt4 key购买 nike

我读过的论文中对此并不太清楚。当模型在被分成子词的双语语料库上进行训练时,例如通过字节对编码,计算子词输出或重新加入子词后的完整词的 BLEU 分数是标准的吗?

最佳答案

BLEU 分数始终在完整标记上计算,否则,BLEU 分数将无法在具有不同分词的模型之间进行比较。即使标记化上的微小差异也会对最终得分产生很大的影响。这在a recent paper中有很好的解释。介绍 SacreBLEU现在用作在学术论文中报告 BLEU 分数的标准工具。

当在 BPE 子词而不是单词上计算 BLEU 时,分数会人为地变高。即使翻译质量相当低,模型通常不会出现单个单词正确的问题。通常,它只会包含在一元语法精度中,但随着单词拆分为多个子词,它还会增加二元语法、三元语法,甚至可能还会增加 4 元语法精度。

关于machine-learning - 子词 NMT 的 BLEU 分数应该根据子词计算还是应该先连接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59649783/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com