python - TfIdfVectorizer 未正确标记-6ren

python - TfIdfVectorizer 未正确标记

转载作者：行者123 更新时间：2023-11-30 08:42:06

28

4

就我而言，不存在这样的问题。我正在 Kaggle 中从事 NLP 和情感分析项目，首先我正在准备我的数据。数据框是一个文本列，后跟 0 到 9 之间的数字，用于对行(文档)所属的簇进行分类。我在 sklearn 中使用 TF-IDF Vectorizer。我想删除任何不是英语单词的内容，因此我使用以下内容:

class LemmaTokenizer(object):
    def __init__(self):
        self.wnl = WordNetLemmatizer()
    def __call__(self, doc):
        return [self.wnl.lemmatize(t) for t in word_tokenize(doc)]

s_words = list(nltk.corpus.stopwords.words("english"))

c = TfidfVectorizer(sublinear_tf=False,
                    stop_words=s_words,
                    token_pattern =r"(?ui)\\b\\w*[a-z]+\\w*\\b",
                    tokenizer = LemmaTokenizer(),
                    analyzer = "word",
                    strip_accents = "unicode")

#a_df is the original dataframe
X = a_df['Text']
X_text = c.fit_transform(X)

据我所知，在调用c.get_feature_names()时应该只返回正确的单词标记，没有数字或标点符号。我在 StackOverflow 的一篇文章中找到了该正则表达式，但使用像 [a-zA-Z]+ 这样的更简单的正则表达式将执行完全相同的操作(这没什么)。当我调用功能名称时，我会得到类似的内容

["''abalone",
"#",
"?",
"$",
"'",
"'0",
"'01",
"'accidentally",
...]

这些只是示例，但它代表了我得到的输出，而不仅仅是单词。几天来我一直在尝试不同的正则表达式或调用方法。甚至对停用词的特征的一些输出进行了硬编码。我问这个是因为后来我使用LDA来获取每个集群的主题并获取标点符号作为“主题”。我希望我没有重复另一篇文章。我很乐意提供任何需要提供的信息。预先感谢您!

最佳答案

如果您传递自定义标记生成器，则正则表达式模式将被忽略。文档中没有提到这一点，但是您可以在此处的源代码中清楚地看到它:

https://github.com/scikit-learn/scikit-learn/blob/9e5819aa413ce907134ee5704abba43ad8a61827/sklearn/feature_extraction/text.py#L333

def build_tokenizer(self):
    """Return a function that splits a string into a sequence of tokens.
    Returns
    -------
    tokenizer: callable
          A function to split a string into a sequence of tokens.
    """
    if self.tokenizer is not None:
        return self.tokenizer
    token_pattern = re.compile(self.token_pattern)
    return token_pattern.findall

如果 self.tokenizer 不是 None，您将不会对 token 模式执行任何操作。

解决这个问题很简单，只需将正则表达式标记模式放入自定义标记生成器中，然后使用它来选择标记即可。

关于python - TfIdfVectorizer 未正确标记，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59096174/

28

4

0

文章推荐： java - 使用 batik 在 JPanel 上加载 SVG 文件

文章推荐： java - 改变 nimbus JPopupmenu 行为

python - 使用来自 sklearn.feature_extraction.text.TfidfVectorizer 的 TfidfVectorizer 计算 IDF
我认为函数 TfidfVectorizer 没有正确计算 IDF 因子。例如，从 tf-idf feature weights using sklearn.feature_extraction.tex
python - 带有生成器的大型语料库上的 TfidfVectorizer
我将大型语料库拆分为 5K 个文件，我正在尝试使用 TF-IDF 转换生成基于 IDF 的词汇表。这是代码:基本上我有一个迭代器，它循环遍历 .tsv 文件的目录，读取每个文件并产生。 import
python - Tfidfvectorizer - 从变换中获取具有权重的特征
假设我用于单个文档 text="bla agao haa" singleTFIDF = TfidfVectorizer(analyzer='char_wb', ngram_range= (4,6),p
python - TfidfVectorizer 数据类型不匹配
我尝试在语料库上使用 TfidfVectorizer，但每次都会出现此错误 File "sparsefuncs.pyx", line 117, in sklearn.utils.sparsefuncs
python - tfidfvectorizer 根据所有单词打印结果
虽然有六个不同的词。结果只打印了5个字。如何根据所有单词(6列向量)获得结果？ from sklearn.feature_extraction.text import TfidfVectorizer
python - TfidfVectorizer 是否隐式地对大型数据集的拟合输出进行阈值处理？
我正在尝试使用 sklearn 的 TfidfVectorizer 输出由两个一元组组成的输入列表的 tf-idf 分数和二元组。这是我正在做的事情的本质: comprehensive_ngrams
python - 将提取的向量加载到 TfidfVectorizer
我正在寻找一种方法来加载我之前使用 scikit-learn 的 TfidfVectorizer 生成的向量。总的来说，我希望更好地了解 TfidfVectorizer 的数据持久性。例如，到目前为
python - TfIdfVectorizer 未正确标记
就我而言，不存在这样的问题。我正在 Kaggle 中从事 NLP 和情感分析项目，首先我正在准备我的数据。数据框是一个文本列，后跟 0 到 9 之间的数字，用于对行(文档)所属的簇进行分类。我在 sk
python - tfidfvectorizer 在保存的分类器中预测
我使用 TfIdfVectorizer 和 MultinomialNB 训练了我的模型，并将其保存到 pickle 文件中。现在我正尝试使用另一个文件中的分类器来预测看不见的数据，我不能这样做，因为
python - 在列表字典上使用 TfidfVectorizer
我有一个大型语料库，存储为 25 个列表的字典，我想使用 SKLearn 的 TfidfVectorizer 进行分析。每个列表包含许多字符串。现在，我既关心整个语料库中的总体词频 (tf)，也关心
python - `TfidfVectorizer` 以何种方式处理个位数？
我对 skelearn 的 TfidfVectorizer 在我不知道的情况下到底做了什么感到有点困惑。我有这样的句子: sentence_1 = 'Sum: 1 Mean: 1 Min:1' 但是
python - TfidfVectorizer 赋予停用词较高的权重
给出以下代码: import pandas as pd from sklearn.feature_extraction.text import TfidfVectorizer import urlli
python - TfidfVectorizer NotFittedError
我正在使用 sklearn Pipeline 和 FeatureUnion 从文本文件创建特征，我想打印出特征名称。首先，我将所有转换收集到一个列表中。 In [225]:components Ou
python - TfidfVectorizer - 归一化偏差
我想确保我了解属性 use_idf 和 sublinear_tf 在 TfidfVectorizer 对象中的作用。这几天我一直在研究这个。我正在尝试对不同长度的文档进行分类，目前使用 tf-idf
python - 了解 TfidfVectorizer 输出
我正在测试 TfidfVectorizer举个简单的例子，我想不出结果。 corpus = ["I'd like an apple", "An apple a day keeps
scikit-learn - TfidfVectorizer 如何计算测试数据的分数
在 scikit-learn TfidfVectorizer允许我们拟合训练数据，然后使用相同的向量化器来转换我们的测试数据。训练数据转换的输出是一个矩阵，表示给定文档的每个单词的 tf-idf 分
python - 在 TfidfVectorizer 中删除法语和英语中的停用词
我正在尝试删除 TfidfVectorizer 中法语和英语的停用词。到目前为止，我只成功地从英语中删除了停用词。当我尝试为 stop_words 输入法语时，收到一条错误消息，指出它不是内置的。事
python - 如何检查经过训练的词汇和 TfidfVectorizer 是否正确应用于另一个语料库？
我正在尝试在一组上训练 NLP 模型，保存词汇和模型，然后将其应用于单独的验证集。代码正在运行，但我如何确定它按我的预期工作？换句话说，我从训练集中保存了词汇和 nmodel，然后使用保存的词汇创建
python - 如何在新数据上使用 sklearn TfidfVectorizer
我有一个相当简单的 NLTK 和 sklearn 分类器(我对此完全是菜鸟)。我进行通常的导入 import pandas as pd import matplotlib.pyplot as plt
python - 从 TfidfVectorizer 获取全文
我正在绘制一组二维文本文档，我注意到一些异常值，我希望能够找出这些异常值是什么。我使用原始文本，然后使用 SKLearn 内置的 TfidfVectorizer。 vectorizer = Tfi

首页

博学

6Ren·AI

商城

python - TfIdfVectorizer 未正确标记