gpt4 book ai didi

python - 如何使用 tf-idf 对新文档进行分类?

转载 作者:太空狗 更新时间:2023-10-30 01:12:47 26 4
gpt4 key购买 nike

如果我使用 sklearn 中的 TfidfVectorizer 生成特征向量,如下所示:

features = TfidfVectorizer(min_df=0.2, ngram_range=(1,3)).fit_transform(myDocuments)

然后我将如何生成特征向量来对新文档进行分类?由于您无法计算单个文档的 tf-idf。

提取特征名称是否是正确的方法:

feature_names = TfidfVectorizer.get_feature_names()

然后根据feature_names统计新文档的词频?

但是这样我就得不到包含单词重要性信息的权重。

最佳答案

您需要保存 TfidfVectorizer 的实例,它会记住用于拟合它的词频和词汇。如果不使用 fit_transform,而是分别使用 fittransform,事情可能会更清楚:

vec = TfidfVectorizer(min_df=0.2, ngram_range=(1,3))
vec.fit(myDocuments)
features = vec.transform(myDocuments)
new_features = fec.transform(myNewDocuments)

关于python - 如何使用 tf-idf 对新文档进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40112373/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com