gpt4 book ai didi

classification - 特征向量 : calculation of weights for training vs test set

转载 作者:行者123 更新时间:2023-12-02 05:07:07 24 4
gpt4 key购买 nike

我正在使用支持向量机进行文本分类,但基本上我对测试集的特征向量计算感到困惑。

为了训练特征向量,我为每个训练数据取了 TF-IDF 向量,并使用 TF-IDF 值构建了一个特征矩阵 [docs x terms]。

但是如何计算测试集的特征向量呢?我应该只使用训练集中的 TF-IDF 值来计算吗?

例如:在特定单词“apple”的训练集中,文档频率为 5。对于测试集,我应该为“apple”使用值 5 吗?或者根据测试集重新计算 TF-IDF?或者更确切地说,我在计算特征向量时走错了路吗??

提前致谢!

最佳答案

您应该使用训练集计算每个术语的 IDF(逆向文档频率)。然后,您应该对测试集中的文档使用相同的 IDF。另一方面,TF 取决于您尝试分类的手头具体文档,因此对于测试和训练集中的不同文档,它会有所不同。

关于classification - 特征向量 : calculation of weights for training vs test set,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16124602/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com