gpt4 book ai didi

machine-learning - NLP 中的字符 n 元语法与单词特征

转载 作者:行者123 更新时间:2023-11-30 09:29:23 34 4
gpt4 key购买 nike

我试图通过使用 SGD 执行线性回归来预测 yelp 上的评论是正面还是负面。
我尝试了两种不同的特征提取器。
第一个是字符 n-gram,第二个是字符 n-gram用空格分隔单词。
但是,我尝试了字符 n-gram 的不同 n 值,发现该 n 值给了我最好的测试错误。
我注意到这个测试错误(0.27在我的测试数据中)与提取由空格分隔的单词的测试错误几乎相同。

这种巧合背后有原因吗?
字符 n-gram 不应该有一个测试误差更低,因为它提取的特征比单词特征更多?

字符 n 元语法:例如。 n=7“好餐厅”=>“Goodres”“oodrest”“odresta”“drestau”“restaur”“estaura”“stauran”“taurant”

词的特点:“不错的餐厅”=>“不错”“餐厅”

最佳答案

看起来 n-gram 方法只是产生了许多冗余、重叠的特征,这些特征对精度没有贡献。

关于machine-learning - NLP 中的字符 n 元语法与单词特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39972085/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com