python - 从 TfidfVectorizer 获取全文-6ren

python - 从 TfidfVectorizer 获取全文

转载作者：行者123 更新时间：2023-12-01 03:07:07

28

4

我正在绘制一组二维文本文档，我注意到一些异常值，我希望能够找出这些异常值是什么。我使用原始文本，然后使用 SKLearn 内置的 TfidfVectorizer。

  vectorizer = TfidfVectorizer(max_df=0.5, max_features=None,
                                 min_df=2, stop_words='english',
                                 use_idf=True, lowercase=True)

  corpus = make_corpus(root)
  X = vectorizer.fit_transform(corpus)

为了减少到二维，我使用 TruncatedSVD。

reduced_data = TruncatedSVD(n_components=2).fit_transform(X)

如果我想找到哪个文本文档具有最高的第二主成分(y 轴)，我该怎么做？

最佳答案

因此，根据我的理解，您想知道哪个文档最大化了特定的主成分。这是我想出的玩具示例:

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
import numpy as np

corpus = [
    'this is my first corpus',
    'this is my second corpus which is longer than the first',
    'here is yet another one, but it is brief',
    'and watch out for number four chuggin along',
    'blah blah blah my final sentence yada yada yada'
]

vectorizer = TfidfVectorizer(stop_words='english',
                             use_idf=True, lowercase=True)

# first get TFIDF matrix
X = vectorizer.fit_transform(corpus)

# second compress to two dimensions
svd = TruncatedSVD(n_components=2).fit(X)
reduced = svd.transform(X)

# now, find the doc with the highest 2nd prin comp
corpus[np.argmax(reduced[:, 1])]

其产量:

'and watch out for number four chuggin along'

关于python - 从 TfidfVectorizer 获取全文，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43263837/

28

4

0

文章推荐： Python:如何不在内联 IF 中添加列表理解

python - 使用来自 sklearn.feature_extraction.text.TfidfVectorizer 的 TfidfVectorizer 计算 IDF
我认为函数 TfidfVectorizer 没有正确计算 IDF 因子。例如，从 tf-idf feature weights using sklearn.feature_extraction.tex
python - 带有生成器的大型语料库上的 TfidfVectorizer
我将大型语料库拆分为 5K 个文件，我正在尝试使用 TF-IDF 转换生成基于 IDF 的词汇表。这是代码:基本上我有一个迭代器，它循环遍历 .tsv 文件的目录，读取每个文件并产生。 import
python - Tfidfvectorizer - 从变换中获取具有权重的特征
假设我用于单个文档 text="bla agao haa" singleTFIDF = TfidfVectorizer(analyzer='char_wb', ngram_range= (4,6),p
python - TfidfVectorizer 数据类型不匹配
我尝试在语料库上使用 TfidfVectorizer，但每次都会出现此错误 File "sparsefuncs.pyx", line 117, in sklearn.utils.sparsefuncs
python - tfidfvectorizer 根据所有单词打印结果
虽然有六个不同的词。结果只打印了5个字。如何根据所有单词(6列向量)获得结果？ from sklearn.feature_extraction.text import TfidfVectorizer
python - TfidfVectorizer 是否隐式地对大型数据集的拟合输出进行阈值处理？
我正在尝试使用 sklearn 的 TfidfVectorizer 输出由两个一元组组成的输入列表的 tf-idf 分数和二元组。这是我正在做的事情的本质: comprehensive_ngrams
python - 将提取的向量加载到 TfidfVectorizer
我正在寻找一种方法来加载我之前使用 scikit-learn 的 TfidfVectorizer 生成的向量。总的来说，我希望更好地了解 TfidfVectorizer 的数据持久性。例如，到目前为
python - TfIdfVectorizer 未正确标记
就我而言，不存在这样的问题。我正在 Kaggle 中从事 NLP 和情感分析项目，首先我正在准备我的数据。数据框是一个文本列，后跟 0 到 9 之间的数字，用于对行(文档)所属的簇进行分类。我在 sk
python - tfidfvectorizer 在保存的分类器中预测
我使用 TfIdfVectorizer 和 MultinomialNB 训练了我的模型，并将其保存到 pickle 文件中。现在我正尝试使用另一个文件中的分类器来预测看不见的数据，我不能这样做，因为
python - 在列表字典上使用 TfidfVectorizer
我有一个大型语料库，存储为 25 个列表的字典，我想使用 SKLearn 的 TfidfVectorizer 进行分析。每个列表包含许多字符串。现在，我既关心整个语料库中的总体词频 (tf)，也关心
python - `TfidfVectorizer` 以何种方式处理个位数？
我对 skelearn 的 TfidfVectorizer 在我不知道的情况下到底做了什么感到有点困惑。我有这样的句子: sentence_1 = 'Sum: 1 Mean: 1 Min:1' 但是
python - TfidfVectorizer 赋予停用词较高的权重
给出以下代码: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer import urlli
python - TfidfVectorizer NotFittedError
我正在使用 sklearn Pipeline 和 FeatureUnion 从文本文件创建特征，我想打印出特征名称。首先，我将所有转换收集到一个列表中。 In [225]:components Ou
python - TfidfVectorizer - 归一化偏差
我想确保我了解属性 use_idf 和 sublinear_tf 在 TfidfVectorizer 对象中的作用。这几天我一直在研究这个。我正在尝试对不同长度的文档进行分类，目前使用 tf-idf
python - 了解 TfidfVectorizer 输出
我正在测试 TfidfVectorizer举个简单的例子，我想不出结果。 corpus = ["I'd like an apple", "An apple a day keeps
scikit-learn - TfidfVectorizer 如何计算测试数据的分数
在 scikit-learn TfidfVectorizer允许我们拟合训练数据，然后使用相同的向量化器来转换我们的测试数据。训练数据转换的输出是一个矩阵，表示给定文档的每个单词的 tf-idf 分
python - 在 TfidfVectorizer 中删除法语和英语中的停用词
我正在尝试删除 TfidfVectorizer 中法语和英语的停用词。到目前为止，我只成功地从英语中删除了停用词。当我尝试为 stop_words 输入法语时，收到一条错误消息，指出它不是内置的。事
python - 如何检查经过训练的词汇和 TfidfVectorizer 是否正确应用于另一个语料库？
我正在尝试在一组上训练 NLP 模型，保存词汇和模型，然后将其应用于单独的验证集。代码正在运行，但我如何确定它按我的预期工作？换句话说，我从训练集中保存了词汇和 nmodel，然后使用保存的词汇创建
python - 如何在新数据上使用 sklearn TfidfVectorizer
我有一个相当简单的 NLTK 和 sklearn 分类器(我对此完全是菜鸟)。我进行通常的导入 import pandas as pd import matplotlib.pyplot as plt
python - 从 TfidfVectorizer 获取全文
我正在绘制一组二维文本文档，我注意到一些异常值，我希望能够找出这些异常值是什么。我使用原始文本，然后使用 SKLearn 内置的 TfidfVectorizer。 vectorizer = Tfi

首页

博学

6Ren·AI

商城

python - 从 TfidfVectorizer 获取全文