gpt4 book ai didi

nlp - Unigram 在语言识别方面提供比 Ngram 更好的结果

转载 作者:行者123 更新时间:2023-12-04 10:21:29 29 4
gpt4 key购买 nike

我有一个学校项目,其中包括从推文数据集中识别推文的每种语言。该数据集包含西类牙语、葡萄牙语、英语、巴斯克语、加利西亚语和加泰罗尼亚语的推文。任务是使用 unigrams、bigrams 和 trigrams 实现语言识别模型,并分析每个模型的效率。

我理解 ngrams 的概念,并且我知道这些语言有些相似(因此这不是一项微不足道的任务),但我不明白的是,我在 unigrams 上获得了比 bigrams 更好的结果,而且我得到了bigrams 比 trigrams 更好的结果。

我无法理解这怎么可能,因为我期望二元组和三元组的效率更高。

你能帮我解释一下为什么会这样吗?

感谢您的时间。

最佳答案

简短回答:高阶 n-gram 存在数据稀疏问题。 (我们倾向于通过平滑来解决这个问题。)这会使它们的信息量减少,因为有很多是不可见的,如果没有更多数据,则很难了解真实的数据分布。

您注意到较小的平滑量比较高的平滑量提供更好的性能。这是因为较低的让您可以更多地收听数据。平滑就像“先验信念”,但您获得的计数代表实际数据。如果您平滑太多,现在您(几乎)完全忽略了您的数据!任何一元组的概率都变得相等。

关于nlp - Unigram 在语言识别方面提供比 Ngram 更好的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60824435/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com