nlp - tf-idf 使用来自 Google 的一元词频率数据-6ren

nlp - tf-idf 使用来自 Google 的一元词频率数据

转载作者：行者123 更新时间：2023-12-02 11:39:23

24

4

我正在尝试找出一组政府文件中的重要术语。生成术语频率没有问题。

对于文档频率，我希望使用 handy Python scripts and accompanying data Peter Norvig 在“美丽数据”一章中发布了这一内容，其中包括来自网络的庞大数据语料库中一元语法的频率。

然而，我对tf-idf的理解是，“文档频率”是指包含某个术语的文档数量，而不是这个术语的总单词数，这就是我们所说的从 Norvig 脚本中获取。我仍然可以使用这些数据进行粗略的 tf-idf 操作吗？

以下是一些示例数据:

word    tf       global frequency
china   1684     0.000121447
the     352385   0.022573582
economy 6602     0.0000451130774123
and     160794   0.012681757
iran    2779     0.0000231482902018
romney  1159     0.000000678497795593

简单地用 tf 除以 gf 会得到“the”比“economy”更高的分数，这是不对的。也许我缺少一些基本的数学知识？

最佳答案

据我了解，全局频率等于这里提到的“逆总词频”Robertson 。来自罗伯逊的论文:

One possible way to get away from this problem would be to make a fairly radical re-
placement for IDF (that is, radical in principle, although it may be not so radical 
in terms of its practical effects). ....
the probability from the event space of documents to the event space of term positions 
in the concatenated text of all the documents in the collection. 
Then we have a new measure, called here 
inverse total term frequency:
...
On the whole, experiments with inverse total term frequency weights have tended to show
that they are not as effective as IDF weights

根据本文，您可以使用逆全局频率作为 IDF 术语，尽管比标准术语更粗糙。

你还缺少stop words移动。几乎所有文档中都使用了诸如 the 之类的词，因此它们不提供任何信息。在 tf-idf 之前，您应该删除此类停用词。

关于nlp - tf-idf 使用来自 Google 的一元词频率数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17709940/

24

4

0

文章推荐： Meteor:检查互联网连接是否存在

文章推荐： oracle - 在 JDBC PL/SQL block 中多次使用命名参数时出错

文章推荐： xproc - 转换输出非 XML 文档

文章推荐： r - Roxygen 可以忽略非用户功能吗？

tf-idf - idf 对排名一个词查询没有影响
我正在阅读此 article它说 Note that IDF is dependent on the query term (T) and the database as a whole. In pa
text - 测试时计算 IDF(如 TF-IDF)？
据我了解，IDF 用于计算有多少文档包含该术语(有点像想法)。您可以计算训练集中的 IDF(以及 TF)，因为您事先拥有所有文档。但是，如果我事先没有测试集，并且以顺序方式获取测试文档(例如从网络爬虫
python - TF-IDF 和非 TF-IDF 功能的准确性
我运行具有 TF-IDF 和非 TF-IDF 特征的随机森林算法。总共特征数量约为 130k(在对 TF-IDF 特征进行特征选择之后)，训练集的观察数量约为 120k。其中大约 500 个是非
python - 在整个数据集上计算 TF-IDF 还是仅在训练数据上计算 TF-IDF？
在本书《TensorFlow Machine Learning Cookbook》的第七章中，作者在预处理数据时使用了scikit-learn的fit_transform函数来获取tfidf特征用于训
machine-learning - 一元词和二元词 (tf-idf) 不如二元词 (ff-idf) 准确？
这是一个关于 ngram 线性回归的问题，使用 Tf-IDF(术语频率 - 逆文档频率)。为此，我使用 numpy 稀疏矩阵和 sklearn 进行线性回归。使用一元语法时，我有 53 个案例和 6
python - 从 tf-idf 稀疏矩阵中获取顶部词(最高 tf-idf 值)
我有一个大小为 208 的列表(208 个句子数组)，它看起来像: all_words = [["this is a sentence ... "] , [" another one hello bo
Python tf-idf : fast way to update the tf-idf matrix
我有一个包含几千行文本的数据集，我的目标是计算 tfidf 分数，然后计算文档之间的余弦相似度，这是我在 Python 中使用 gensim 按照教程所做的: dictionary = corpora
Python爬取十篇新闻统计TF-IDF
统计十篇新闻TF-IDF 统计TF-IDF词频，每篇文章的 top10 的高频词存储为 json 文件 TF-IDF TF-IDF（term frequency–inverse documen
sql - 使用Sql计算TF-IDF
我的数据库中有一个表，其中包含自由文本字段列。我想知道每个单词在所有行中出现的频率，或者甚至计算所有单词的 TF-IDF，其中我的文档是该字段每行的值。是否可以使用 Sql 查询来计算此值？如果没
Elasticsearch 分数禁用 IDF
我正在使用 ES 使用模糊搜索技术搜索大量人名。 TF适用于打分，IDF对我来说真的不需要。这真的是在冲淡分数。我仍然希望将 TF 和 Field Norm 应用于分数。如何为我的查询禁用/抑制 I
python - 为Textacy中的单个单词计算TF-IDF
我正在尝试使用Textacy计算整个标准语料库中单个单词的TF-IDF分数，但是对于我收到的结果有点不清楚。我期待一个单一的浮点数，它代表了语料库中单词的出现频率。那么，为什么我会收到包含7个结果的
hadoop - 以HBase为数据源计算文档的TF-IDF
我想计算存储在 HBase 中的文档的 TF(词频)和 IDF(逆文档频率)。我还想把计算出来的TF保存在一个HBase表中，也想把计算出来的IDF保存在另一个HBase表中。你能指导我完成吗？
nlp - TF-IDF 有没有比使用词频向量更糟糕的情况？
我现在在做文本分类。 TF-IDF 有没有比使用词频向量更糟糕的情况？怎么解释呢？谢谢最佳答案 Both metrics ...discriminate along two dimensions –
nlp - tf-idf 权重会影响余弦相似度吗？
我正在对文本文档进行聚类。我正在使用 tf-idf 和余弦相似度。然而，即使我正在使用这些措施，有些事情我还是不太明白。 tf-idf 权重会影响两个文档之间的相似度计算吗？假设我有这两个文件: 1
solr/lucene idf 分数
我试图更好地了解 lucene 如何对我的搜索进行评分，以便我可以对我的搜索配置或文档内容进行必要的调整。以下是分数明细的一部分。产品: 0.34472802 = queryWeight,
search - 如何计算查询的 TF-IDF？
我如何计算 tf-idf查询？我了解如何为具有以下定义的一组文档计算 tf-idf: tf = occurances in document/ total words in document idf
我们可以减少 ESP IDF 锅炉板尺寸吗？
我使用 duinotech XC-3800 在 ESP32 芯片上使用 ESP IDF 测试运行裸机代码，并在图像大小方面获得以下结果。 ESP32 的分析二进制大小文件夹结构温度/ 主要的/ C
elasticsearch - 在Elastic Search中忽略TF-IDF
我有一个基于职位描述关键字的简历筛选候选人的用例。由于每次将新的候选人资料添加到内容列表时我都无法负担分数的变化(我认为IDF会发生变化)，因此我想省略TF_IDF。索引文件是 {
elasticsearch - 在Elasticsearch中如何计算嵌套文档的相关性分数(TF/IDF)？
在嵌套字段上运行匹配查询时，是基于所有根文档中的所有嵌套文档还是仅基于单个根文档下的嵌套文档来计算每个嵌套文档的相关性得分？基本上，在计算TF / IDF时，用于IDF的集合的范围是什么？这是一个嵌
frequency - TF-IDF:这种方法正确吗？
我想使用tf-idf计算词频。我起草了一个方程式，您应该在左侧获取tf-idf值。这样对吗？ DOCUMENT的TF-IDF： tf-idf(WORD) = occurrences(WORD,DOCU

首页

博学

6Ren·AI

商城

nlp - tf-idf 使用来自 Google 的一元词频率数据