gpt4 book ai didi

python - 对于 scikit-learn 中的每个文件,如何从 TF-idf 向量中获取最高频率项?

转载 作者:行者123 更新时间:2023-11-30 08:55:46 26 4
gpt4 key购买 nike

我正在尝试从 scikit-learn 中的向量中获取最高频率的术语。从示例中可以对每个类别使用它,但我希望对类别内的每个文件使用它。

https://github.com/scikit-learn/scikit-learn/blob/master/examples/document_classification_20newsgroups.py

    if opts.print_top10:
print "top 10 keywords per class:"
for i, category in enumerate(categories):
top10 = np.argsort(clf.coef_[i])[-10:]
print trim("%s: %s" % (
category, " ".join(feature_names[top10])))

我想对测试数据集中的每个文件而不是每个类别执行此操作。我应该在哪里寻找?

谢谢

编辑:s/discrimitive/最高频率/g(抱歉造成混淆)

最佳答案

您可以将转换结果与 get_feature_names 一起使用来获取给定文档的术语计数。

X = vectorizer.transform(docs)
terms = np.array(vectorizer.get_feature_names())
terms_for_first_doc = zip(terms, X.toarray()[0])

关于python - 对于 scikit-learn 中的每个文件,如何从 TF-idf 向量中获取最高频率项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13181409/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com