gpt4 book ai didi

python - 将 tfidf 矩阵打印到文件中

转载 作者:太空宇宙 更新时间:2023-11-04 05:40:10 25 4
gpt4 key购买 nike

我想在文本文件中将此 tfidf 过程的结果打印为 (word, 2.333)。目前它首先打印所有单词,然后打印分数。我该怎么做?我还希望文件按 idf 值排序,以便将最重要的词放在最前面。

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer

results = []
with open("/Users/xyz/Documents/wholedata/X_tr.txt") as f:
for line in f:
results.extend(line.strip().split('\n'))

blob=list(results)

vectorizer= TfidfVectorizer(min_df=1)

X_train_tf=vectorizer.fit_transform(blob)
print(X_train_tf.shape)
idf=vectorizer._tfidf.idf_

p= (vectorizer.get_feature_names(), idf)
with open("tfidf.txt","w") as t:
for x in p:
print>>t, x

最佳答案

您可以将两个列表压缩为

p = zip(vectorizer.get_feature_names(), idf)

将压缩列表排序为

p.sort(key = lambda t: t[1])

在控制台检查打印它们并将它们写入文件。

关于python - 将 tfidf 矩阵打印到文件中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34216315/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com