python - 与 TfidfVectorizer.fit_transform 的返回结果混淆-6ren

python - 与 TfidfVectorizer.fit_transform 的返回结果混淆

转载作者：行者123 更新时间：2023-12-04 05:14:33

27

4

我想更多地了解 NLP。我遇到了这段代码。但是当打印结果时，我对 TfidfVectorizer.fit_transform 的结果感到困惑。我熟悉 tfidf 是什么，但我不明白这些数字是什么意思。

import tensorflow as tf
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
import os
import io
import string
import requests
import csv
import nltk
from zipfile import ZipFile

sess = tf.Session()

batch_size = 100
max_features = 1000

save_file_name = os.path.join('smsspamcollection', 'SMSSpamCollection.csv')
if os.path.isfile(save_file_name):
    text_data = []
    with open(save_file_name, 'r') as temp_output_file:
        reader = csv.reader(temp_output_file)
        for row in reader:
            text_data.append(row)

else:
    zip_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/00228/smsspamcollection.zip'
    r = requests.get(zip_url)
    z = ZipFile(io.BytesIO(r.content))
    file = z.read('SMSSpamCollection')

    # Format data 
    text_data = file.decode()
    text_data = text_data.encode('ascii', errors='ignore')
    text_data = text_data.decode().split('\n')
    text_data = [x.split('\t') for x in text_data if len(x) >= 1]

    # And write to csv 
    with open(save_file_name, 'w') as temp_output_file:
        writer = csv.writer(temp_output_file)
        writer.writerows(text_data)

texts = [x[1] for x in text_data]
target = [x[0] for x in text_data]
target = [1 if x == 'spam' else 0 for x in target]

# Normalize the text
texts = [x.lower() for x in texts]  # lower
texts = [''.join(c for c in x if c not in string.punctuation) for x in texts]  # remove punctuation
texts = [''.join(c for c in x if c not in '0123456789') for x in texts]  # remove numbers
texts = [' '.join(x.split()) for x in texts]  # trim extra whitespace


def tokenizer(text):
    words = nltk.word_tokenize(text)
    return words


tfidf = TfidfVectorizer(tokenizer=tokenizer, stop_words='english', max_features=max_features)
sparse_tfidf_texts = tfidf.fit_transform(texts)
print(sparse_tfidf_texts)

输出是:

(0, 630) 0.37172623140154337 (0, 160) 0.36805562944957004 (0,38) 0.3613966215413548 (0, 545) 0.2561101665717327 (0,326) 0.2645280991765623 (0, 967) 0.3277447602873963 (0,421) 0.3896274380321477 (0, 227) 0.28102915589024796 (0,323) 0.22032541100275282 (0, 922) 0.2709848154866997 (1,577) 0.4007895093299793 (1, 425) 0.5970064521899725 (1,943) 0.6310763941180291 (1, 878) 0.29102173465492637 (2,282) 0.1771481430848552 (2, 243) 0.5517018054305785 (2,955) 0.2920174942032025 (2, 138) 0.30143666813167863 (2,946) 0.2269933441326121 (2, 165) 0.3051095293405041 (2,268) 0.2820392223588522 (2, 780) 0.24119626642264894 (2,823) 0.1890454397278538 (2, 674) 0.256251970757827 (2,874) 0.19343834015314287 : : (5569, 648) 0.24171652492226922
(5569, 123) 0.23011909339432202 (5569, 957) 0.24817919217662862
(5569, 549) 0.28583789844730134 (5569, 863) 0.3026729783085827
(5569, 844) 0.20228305447951195 (5569, 146) 0.2514415602877767
(5569, 595) 0.2463259875380789 (5569, 511) 0.3091904754885042
(5569, 230) 0.2872728684768659 (5569, 638) 0.34151390143548765
(5569, 83) 0.3464271621701711 (5570, 370) 0.4199910200421362
(5570, 46) 0.48234172093857797 (5570, 317) 0.4171646676697801
(5570, 281) 0.6456993475093024 (5572, 282) 0.25540827228532487
(5572, 385) 0.36945842040023935 (5572, 448) 0.25540827228532487
(5572, 931) 0.3031800542518209 (5572, 192) 0.29866989620926737
(5572, 303) 0.43990016711221736 (5572, 87) 0.45211284173737176
(5572, 332) 0.3924202767503492 (5573, 866) 1.0

如果有人可以解释输出，我会非常高兴。

最佳答案

请注意，您正在打印稀疏矩阵，因此与打印标准密集矩阵相比，输出看起来不同。主要组件见下图:

元组表示: (document_id, token_id)

元组后面的值表示给定文档中给定标记的 tf-idf 分数

不存在的元组的 tf-idf 分数为 0

如果要查找 token_id 对应的 token ，请查看 get_feature_names 方法。

关于python - 与 TfidfVectorizer.fit_transform 的返回结果混淆，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50906210/

27

4

0

文章推荐： apache-spark - 当我并行化一个大列表时 Spark 上下文关闭

文章推荐： wolfram-mathematica - Mathematica中条形图顶部的GridLine

文章推荐： google-maps - google maps api infobox插件和多个标记

文章推荐： dependencies - "Unable to resolve module"在 native react

python - 使用来自 sklearn.feature_extraction.text.TfidfVectorizer 的 TfidfVectorizer 计算 IDF
我认为函数 TfidfVectorizer 没有正确计算 IDF 因子。例如，从 tf-idf feature weights using sklearn.feature_extraction.tex
python - 带有生成器的大型语料库上的 TfidfVectorizer
我将大型语料库拆分为 5K 个文件，我正在尝试使用 TF-IDF 转换生成基于 IDF 的词汇表。这是代码:基本上我有一个迭代器，它循环遍历 .tsv 文件的目录，读取每个文件并产生。 import
python - Tfidfvectorizer - 从变换中获取具有权重的特征
假设我用于单个文档 text="bla agao haa" singleTFIDF = TfidfVectorizer(analyzer='char_wb', ngram_range= (4,6),p
python - TfidfVectorizer 数据类型不匹配
我尝试在语料库上使用 TfidfVectorizer，但每次都会出现此错误 File "sparsefuncs.pyx", line 117, in sklearn.utils.sparsefuncs
python - tfidfvectorizer 根据所有单词打印结果
虽然有六个不同的词。结果只打印了5个字。如何根据所有单词(6列向量)获得结果？ from sklearn.feature_extraction.text import TfidfVectorizer
python - TfidfVectorizer 是否隐式地对大型数据集的拟合输出进行阈值处理？
我正在尝试使用 sklearn 的 TfidfVectorizer 输出由两个一元组组成的输入列表的 tf-idf 分数和二元组。这是我正在做的事情的本质: comprehensive_ngrams
python - 将提取的向量加载到 TfidfVectorizer
我正在寻找一种方法来加载我之前使用 scikit-learn 的 TfidfVectorizer 生成的向量。总的来说，我希望更好地了解 TfidfVectorizer 的数据持久性。例如，到目前为
python - TfIdfVectorizer 未正确标记
就我而言，不存在这样的问题。我正在 Kaggle 中从事 NLP 和情感分析项目，首先我正在准备我的数据。数据框是一个文本列，后跟 0 到 9 之间的数字，用于对行(文档)所属的簇进行分类。我在 sk
python - tfidfvectorizer 在保存的分类器中预测
我使用 TfIdfVectorizer 和 MultinomialNB 训练了我的模型，并将其保存到 pickle 文件中。现在我正尝试使用另一个文件中的分类器来预测看不见的数据，我不能这样做，因为
python - 在列表字典上使用 TfidfVectorizer
我有一个大型语料库，存储为 25 个列表的字典，我想使用 SKLearn 的 TfidfVectorizer 进行分析。每个列表包含许多字符串。现在，我既关心整个语料库中的总体词频 (tf)，也关心
python - `TfidfVectorizer` 以何种方式处理个位数？
我对 skelearn 的 TfidfVectorizer 在我不知道的情况下到底做了什么感到有点困惑。我有这样的句子: sentence_1 = 'Sum: 1 Mean: 1 Min:1' 但是
python - TfidfVectorizer 赋予停用词较高的权重
给出以下代码: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer import urlli
python - TfidfVectorizer NotFittedError
我正在使用 sklearn Pipeline 和 FeatureUnion 从文本文件创建特征，我想打印出特征名称。首先，我将所有转换收集到一个列表中。 In [225]:components Ou
python - TfidfVectorizer - 归一化偏差
我想确保我了解属性 use_idf 和 sublinear_tf 在 TfidfVectorizer 对象中的作用。这几天我一直在研究这个。我正在尝试对不同长度的文档进行分类，目前使用 tf-idf
python - 了解 TfidfVectorizer 输出
我正在测试 TfidfVectorizer举个简单的例子，我想不出结果。 corpus = ["I'd like an apple", "An apple a day keeps
scikit-learn - TfidfVectorizer 如何计算测试数据的分数
在 scikit-learn TfidfVectorizer允许我们拟合训练数据，然后使用相同的向量化器来转换我们的测试数据。训练数据转换的输出是一个矩阵，表示给定文档的每个单词的 tf-idf 分
python - 在 TfidfVectorizer 中删除法语和英语中的停用词
我正在尝试删除 TfidfVectorizer 中法语和英语的停用词。到目前为止，我只成功地从英语中删除了停用词。当我尝试为 stop_words 输入法语时，收到一条错误消息，指出它不是内置的。事
python - 如何检查经过训练的词汇和 TfidfVectorizer 是否正确应用于另一个语料库？
我正在尝试在一组上训练 NLP 模型，保存词汇和模型，然后将其应用于单独的验证集。代码正在运行，但我如何确定它按我的预期工作？换句话说，我从训练集中保存了词汇和 nmodel，然后使用保存的词汇创建
python - 如何在新数据上使用 sklearn TfidfVectorizer
我有一个相当简单的 NLTK 和 sklearn 分类器(我对此完全是菜鸟)。我进行通常的导入 import pandas as pd import matplotlib.pyplot as plt
python - 从 TfidfVectorizer 获取全文
我正在绘制一组二维文本文档，我注意到一些异常值，我希望能够找出这些异常值是什么。我使用原始文本，然后使用 SKLearn 内置的 TfidfVectorizer。 vectorizer = Tfi

首页

博学

6Ren·AI

商城

python - 与 TfidfVectorizer.fit_transform 的返回结果混淆