gpt4 book ai didi

python - CountVectorizer 矩阵随新的分类测试数据变化?

转载 作者:行者123 更新时间:2023-11-28 20:20:43 26 4
gpt4 key购买 nike

我已经使用 python 创建了一个文本分类模型。我有 CountVectorizer,它会生成 2034 行和 4063 列(唯一单词)的文档术语矩阵。我保存了用于新测试数据的模型。我的新测试数据

 test_data = ['Love', 'python', 'every','time']

但问题是我把上面的测试数据token转换成了一个特征向量,但是形状不一样。因为该模型需要一个 4063 向量。我知道如何通过获取 CountVectorizer 的词汇并搜索测试数据中的每个标记并将其放入该索引来解决它。但是在 scikit-learn 中有没有简单的方法来处理这个问题。

最佳答案

您不应该在测试数据上拟合一个新的 CountVectorizer,您应该使用在训练数据上拟合的那个,并对其调用 transfrom(test_data)

关于python - CountVectorizer 矩阵随新的分类测试数据变化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30287371/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com