python - 在 keras Tokenizer 中使用 tf

python - 在 keras Tokenizer 中使用 tf–idf

转载作者：太空宇宙更新时间：2023-11-03 13:58:34

25

4

我有一个数据框，其中第一行的标题列包含以下文本:

Use of hydrocolloids as cryoprotectant for frozen foods

使用这段代码:

vocabulary_size = 1000
tokenizer = Tokenizer(num_words=vocabulary_size)
tokenizer.fit_on_texts(df['Title'])
sequences = tokenizer.texts_to_sequences(df['Title'])
print(sequences[0])

我得到这个序列:

[57, 1, 21, 7]

使用这个:

index_word = {v: k for k, v in tokenizer.word_index.items()}
print(index_word[57])
print(index_word[1])
print(index_word[21])
print(index_word[7])

我得到:

use
of
as
for

这是有道理的，因为这些是更频繁的词。是否也可以使用 Tokenizer 将标记化基于 tf–idf ？

增加 vocabulary_size 也会标记出频率较低的单词，例如:

hydrocolloids

我打算在下游使用手套进行分类任务。保留频繁且因此可能不那么具有歧视性的词是否有意义:

use

在？也许是的，因为 glove 也会查看上下文，这与我过去使用的词袋方法形成对比。这里 tf–idf 是有道理的。

最佳答案

直到现在(因为 Keras 总是在更新它的功能)，没有什么可以产生你想要的..

但它有一个函数，使用 Tf-Idf 方案而不是 freq 来表示序列。

sequences = tokenizer.texts_to_matrix(df['Title'], mode='tfidf')

代替:

sequences = tokenizer.texts_to_sequences(df['Title'])

此外，作为建议，您可以使用 sklearn TfidfVectorizer 从低频词中过滤文本，然后将其传递给您的 Keras 模型..

关于python - 在 keras Tokenizer 中使用 tf–idf，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52224666/

25

4

0

文章推荐： python - 更新 matplotlib 动画中的 x 轴标签

文章推荐： python - Pandas dataframe - 将行索引值重新排列到列标题中

文章推荐： python - 使用 Pandas 计算客户生命周期

文章推荐： python - 使用 TensorFlow 作为依赖项部署 Google Cloud Functions

tf-idf - idf 对排名一个词查询没有影响
我正在阅读此 article它说 Note that IDF is dependent on the query term (T) and the database as a whole. In pa
text - 测试时计算 IDF(如 TF-IDF)？
据我了解，IDF 用于计算有多少文档包含该术语(有点像想法)。您可以计算训练集中的 IDF(以及 TF)，因为您事先拥有所有文档。但是，如果我事先没有测试集，并且以顺序方式获取测试文档(例如从网络爬虫
python - TF-IDF 和非 TF-IDF 功能的准确性
我运行具有 TF-IDF 和非 TF-IDF 特征的随机森林算法。总共特征数量约为 130k(在对 TF-IDF 特征进行特征选择之后)，训练集的观察数量约为 120k。其中大约 500 个是非
python - 在整个数据集上计算 TF-IDF 还是仅在训练数据上计算 TF-IDF？
在本书《TensorFlow Machine Learning Cookbook》的第七章中，作者在预处理数据时使用了scikit-learn的fit_transform函数来获取tfidf特征用于训
machine-learning - 一元词和二元词 (tf-idf) 不如二元词 (ff-idf) 准确？
这是一个关于 ngram 线性回归的问题，使用 Tf-IDF(术语频率 - 逆文档频率)。为此，我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。使用一元语法时，我有 53 个案例和 6
python - 从 tf-idf 稀疏矩阵中获取顶部词(最高 tf-idf 值)
我有一个大小为 208 的列表(208 个句子数组)，它看起来像: all_words = [["this is a sentence ... "] , [" another one hello bo
Python tf-idf : fast way to update the tf-idf matrix
我有一个包含几千行文本的数据集，我的目标是计算 tfidf 分数，然后计算文档之间的余弦相似度，这是我在 Python 中使用 gensim 按照教程所做的: dictionary = corpora
Python爬取十篇新闻统计TF-IDF
统计十篇新闻TF-IDF 统计TF-IDF词频，每篇文章的 top10 的高频词存储为 json 文件 TF-IDF TF-IDF（term frequency–inverse documen
sql - 使用Sql计算TF-IDF
我的数据库中有一个表，其中包含自由文本字段列。我想知道每个单词在所有行中出现的频率，或者甚至计算所有单词的 TF-IDF，其中我的文档是该字段每行的值。是否可以使用 Sql 查询来计算此值？如果没
Elasticsearch 分数禁用 IDF
我正在使用 ES 使用模糊搜索技术搜索大量人名。 TF适用于打分，IDF对我来说真的不需要。这真的是在冲淡分数。我仍然希望将 TF 和 Field Norm 应用于分数。如何为我的查询禁用/抑制 I
python - 为Textacy中的单个单词计算TF-IDF
我正在尝试使用Textacy计算整个标准语料库中单个单词的TF-IDF分数，但是对于我收到的结果有点不清楚。我期待一个单一的浮点数，它代表了语料库中单词的出现频率。那么，为什么我会收到包含7个结果的
hadoop - 以HBase为数据源计算文档的TF-IDF
我想计算存储在 HBase 中的文档的 TF(词频)和 IDF(逆文档频率)。我还想把计算出来的TF保存在一个HBase表中，也想把计算出来的IDF保存在另一个HBase表中。你能指导我完成吗？
nlp - TF-IDF 有没有比使用词频向量更糟糕的情况？
我现在在做文本分类。 TF-IDF 有没有比使用词频向量更糟糕的情况？怎么解释呢？谢谢最佳答案 Both metrics ...discriminate along two dimensions –
nlp - tf-idf 权重会影响余弦相似度吗？
我正在对文本文档进行聚类。我正在使用 tf-idf 和余弦相似度。然而，即使我正在使用这些措施，有些事情我还是不太明白。 tf-idf 权重会影响两个文档之间的相似度计算吗？假设我有这两个文件: 1
solr/lucene idf 分数
我试图更好地了解 lucene 如何对我的搜索进行评分，以便我可以对我的搜索配置或文档内容进行必要的调整。以下是分数明细的一部分。产品: 0.34472802 = queryWeight,
search - 如何计算查询的 TF-IDF？
我如何计算 tf-idf查询？我了解如何为具有以下定义的一组文档计算 tf-idf: tf = occurances in document/ total words in document idf
我们可以减少 ESP IDF 锅炉板尺寸吗？
我使用 duinotech XC-3800 在 ESP32 芯片上使用 ESP IDF 测试运行裸机代码，并在图像大小方面获得以下结果。 ESP32 的分析二进制大小文件夹结构温度/ 主要的/ C
elasticsearch - 在Elastic Search中忽略TF-IDF
我有一个基于职位描述关键字的简历筛选候选人的用例。由于每次将新的候选人资料添加到内容列表时我都无法负担分数的变化(我认为IDF会发生变化)，因此我想省略TF_IDF。索引文件是 {
elasticsearch - 在Elasticsearch中如何计算嵌套文档的相关性分数(TF/IDF)？
在嵌套字段上运行匹配查询时，是基于所有根文档中的所有嵌套文档还是仅基于单个根文档下的嵌套文档来计算每个嵌套文档的相关性得分？基本上，在计算TF / IDF时，用于IDF的集合的范围是什么？这是一个嵌
frequency - TF-IDF:这种方法正确吗？
我想使用tf-idf计算词频。我起草了一个方程式，您应该在左侧获取tf-idf值。这样对吗？ DOCUMENT的TF-IDF： tf-idf(WORD) = occurrences(WORD,DOCU

首页

博学

6Ren·AI

商城

python - 在 keras Tokenizer 中使用 tf–idf