gpt4 book ai didi

machine-learning - 定义文本分类中的词汇量

转载 作者:行者123 更新时间:2023-11-30 08:34:11 24 4
gpt4 key购买 nike

我有一个关于文本分类中特征提取所需的词汇集定义的问题。 在实验中,我能想到两种方法:

1.使用训练数据和测试数据定义词汇量,以便在测试过程中测试数据中的任何单词都不会被视为“未知”。

2.仅根据训练数据中的数据定义词汇量大小,并将测试数据中未出现在训练数据中的每个单词视为“未知”。

乍一看更科学的方法是第二种。然而值得注意的是,虽然我们无法知道实际系统中词汇量的真实大小,但将词汇量设置为比训练数据中出现的大小稍大一点似乎没有问题。以涵盖潜在的更大问题。这很有帮助,因为它实际上将不同的未知单词视为不同的,而不是将它们总结为“未知”。有什么理由说这不实用吗?

机器学习新手。非常感谢帮助。

最佳答案

如果您将训练集中未出现的测试集单词包含到您的模型中(例如分类模型),那么由于它们未出现在训练集中,因此它们在训练模型中的权重将为零,因此除了增加模型大小之外,它们不会产生任何影响。所以选项 2 更好。

话虽如此,为了补偿测试数据不断变化的性质,一种解决方案是定期重新训练模型,另一种解决方案是使用 word2vec 构建表示和 K 最近邻模型,该模型给出了测试集会为您提供训练集中最接近的单词,以便您可以使用该单词来代替未知单词。

关于machine-learning - 定义文本分类中的词汇量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38156017/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com