gpt4 book ai didi

machine-learning - 什么时候 uni-gram 比 bi-gram(或更高的 N-gram)更合适?

转载 作者:行者123 更新时间:2023-11-30 08:32:40 25 4
gpt4 key购买 nike

我正在阅读有关 n 元语法的内容,我想知道在实践中是否存在优先使用单元语法而不是双元语法的情况(或更高的N-grams)。据我了解,N越大,计算概率和建立向量空间的复杂性就越大。但除此之外,还有其他原因吗(例如与数据类型有关)?

最佳答案

这归结为data sparsity :随着您的 n-gram 长度的增加,您看到任何给定 n-gram 的次数将会减少:在最极端的例子中,如果您有一个语料库,其中最大文档长度为 n 个标记,并且您正在寻找 m-gram,其中 m=n+1 ,当然,您将根本没有数据点,因为您的数据集中不可能有该长度的序列。您的数据集越稀疏,the worse you can model it 。因此,尽管理论上,高阶 n-gram 模型包含有关单词上下文的更多信息,但它无法轻松推广到其他数据集(称为 overfitting ),因为随着 n 的增加,它在训练期间看到的事件数量(即 n-grams)逐渐减少。另一方面,低阶模型缺乏上下文信息,因此可能 underfit您的数据。

因此,如果您有相对大量的token types (即文本的词汇量非常丰富)但每种类型的频率都非常低,使用低阶 n-gram 模型可能会获得更好的结果。同样,如果您的训练数据集非常小,那么使用低阶 n-gram 模型可能会做得更好。但是,假设您有足够的数据来避免过度拟合,您then get better separability of your data with a higher-order model .

关于machine-learning - 什么时候 uni-gram 比 bi-gram(或更高的 N-gram)更合适?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36542993/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com