gpt4 book ai didi

machine-learning - 我是否使用训练集中的相同 idf 来执行交叉验证?

转载 作者:行者123 更新时间:2023-11-30 08:55:39 25 4
gpt4 key购买 nike

我正在尝试使用向量空间模型在 SVM Light 中构建 SVM 分类器。我有 1000 个文档和一个术语词典,我将使用它来矢量化每个文档。在 1000 个文档中,600 个将用于我的训练集,而其余 400 个将平均分配(每个 200 个)用于我的交叉验证集和测试集。

现在假设我要使用 600 个训练集(使用 tf-idf 进行矢量化)来训练 SVM 分类器,以生成分类模型。

当我将模型应用于交叉验证集时,我会使用相同的 idf(因为该模型对应于我的训练集),还是需要根据交叉验证集计算新的 idf?另外,如果我要将模型应用到单个文档,我将如何应用 idf,因为该集合仅包含 1 个文档?

最佳答案

您在训练文档中构建 idf,并在新的测试文档出现时使用它。对于每个测试文档,您可以使用查询中每个术语的 idf 为查询创建一个单词列表。如果某个词不包含在idf中,查询将返回0。根据建立的idf获取分类。

关于machine-learning - 我是否使用训练集中的相同 idf 来执行交叉验证?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20547540/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com