- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在运行 SKLearn 的 TF-IDF Vectorizer,但在手动重新创建值时遇到问题(以帮助理解正在发生的情况)。
为了添加一些上下文,我有一个文档列表,我从中提取了命名实体(在我的实际数据中,这些实体最多为 5 克,但在这里我将其限制为二元)。我只想知道这些值的 TF-IDF 分数,并认为通过 vocabulary
参数传递这些术语就可以做到这一点。
这里有一些与我正在使用的类似的虚拟数据:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
# list of named entities I want to generate TF-IDF scores for
named_ents = ['boston','america','france','paris','san francisco']
# my list of documents
docs = ['i have never been to boston',
'boston is in america',
'paris is the capitol city of france',
'this sentence has no named entities included',
'i have been to san francisco and paris']
# find the max nGram in the named entity vocabulary
ne_vocab_split = [len(word.split()) for word in named_ents]
max_ngram = max(ne_vocab_split)
tfidf = TfidfVectorizer(vocabulary = named_ents, stop_words = None, ngram_range=(1,max_ngram))
tfidf_vector = tfidf.fit_transform(docs)
output = pd.DataFrame(tfidf_vector.T.todense(), index=named_ents, columns=docs)
注意:我知道默认情况下会删除停用词,但我的实际数据集中的一些命名实体包含诸如“国家部门”之类的短语。所以他们就一直被留在这里。
这是我需要帮助的地方。据我了解,我们计算 TF-IDF 的方式如下:
TF: 术语频率:根据 SKlearn guidelines是“某个术语在给定文档中出现的次数”
IDF:逆文档频率:1+文档数与1+包含该词的文档数之比的自然对数。根据链接中的相同准则,结果值添加了 1,以防止被零除。
然后,我们将 TF 乘以 IDF,得出给定文档中给定术语的总体 TF-IDF。
示例
让我们以第一列为例,它只有一个命名实体“Boston”,根据上面的代码,第一个文档 1 上有一个 TF-IDF。但是,当我手动计算出来时,我得到以下内容:
TF = 1
IDF = log-e(1+total docs / 1+docs with 'boston') + 1
' ' = log-e(1+5 / 1+2) + 1
' ' = log-e(6 / 3) + 1
' ' = log-e(2) + 1
' ' = 0.69314 + 1
' ' = 1.69314
TF-IDF = 1 * 1.69314 = 1.69314 (not 1)
也许我在文档中遗漏了一些内容,说明分数上限为 1,但我无法找出哪里出了问题。此外,通过上述计算,波士顿在第一列和第二列中的分数不应该有任何差异,因为该术语在每个文档中仅出现一次。
编辑发布问题后,我认为术语频率可能是与文档中的一元组数或文档中的命名实体数的比率来计算的。例如,在第二个文档中,SKlearn 为波士顿生成的分数为 0.627914
。如果我将 TF 计算为 tokens = 'boston' (1) : all unigram tokens (4) 的比率,我会得到 0.25
的 TF,当我应用于 TF-IDF 时会返回一个分数刚刚超过 0.147
。
类似地,当我使用 token = 'boston' (1) : 所有 NE token (2) 的比率并应用 TF-IDF 时,我得到的分数为 0.846
。很明显我在某个地方出错了。
最佳答案
让我们一步一步地进行这个数学练习。
第 1 步:获取 boston
token 的 tfidf 分数
docs = ['i have never been to boston',
'boston is in america',
'paris is the capitol city of france',
'this sentence has no named entities included',
'i have been to san francisco and paris']
from sklearn.feature_extraction.text import TfidfVectorizer
# I did not include your named_ents here but did for a full vocab
tfidf = TfidfVectorizer(smooth_idf=True,norm='l1')
注意TfidfVectorizer
中的参数,它们对于稍后的平滑和标准化很重要。
docs_tfidf = tfidf.fit_transform(docs).todense()
n = tfidf.vocabulary_["boston"]
docs_tfidf[:,n]
matrix([[0.19085885],
[0.22326669],
[0. ],
[0. ],
[0. ]])
到目前为止,我们得到的是 boston
标记的 tfidf 分数(词汇中的#3)。
第 2 步:计算 boston
代币的 tfidf(不带范数)。
公式为:
tf-idf(t, d) = tf(t, d) * idf(t)
idf(t) = log( (n+1) / (df(t)+1) ) + 1
where:
- tf(t,d) -- simple term t frequency in document d
- idf(t) -- smoothed inversed document frequency (because ofsmooth_idf=True
param)
计算第 0 个文档中的标记 boston
及其出现的文档数量:
tfidf_boston_wo_norm = ((1/5) * (np.log((1+5)/(1+2))+1))
tfidf_boston_wo_norm
0.3386294361119891
请注意,根据内置标记化方案,i
不算作标记。
第 3 步:标准化
我们首先进行 l1
标准化,即所有计算出的非标准化 tfdid 的总和应为 1:
l1_norm = ((1/5) * (np.log((1+5)/(1+2))+1) +
(1/5) * (np.log((1+5)/(1+1))+1) +
(1/5) * (np.log((1+5)/(1+2))+1) +
(1/5) * (np.log((1+5)/(1+2))+1) +
(1/5) * (np.log((1+5)/(1+2))+1))
tfidf_boston_w_l1_norm = tfidf_boston_wo_norm/l1_norm
tfidf_boston_w_l1_norm
0.19085884520912985
如您所见,我们得到与上面相同的 tfidf 分数。
现在让我们对 l2
范数进行相同的数学计算。
基准:
tfidf = TfidfVectorizer(sublinear_tf=True,norm='l2')
docs_tfidf = tfidf.fit_transform(docs).todense()
docs_tfidf[:,n]
matrix([[0.42500138],
[0.44400208],
[0. ],
[0. ],
[0. ]])
微积分:
l2_norm = np.sqrt(((1/5) * (np.log((1+5)/(1+2))+1))**2 +
((1/5) * (np.log((1+5)/(1+1))+1))**2 +
((1/5) * (np.log((1+5)/(1+2))+1))**2 +
((1/5) * (np.log((1+5)/(1+2))+1))**2 +
((1/5) * (np.log((1+5)/(1+2))+1))**2
)
tfidf_boston_w_l2_norm = tfidf_boston_wo_norm/l2_norm
tfidf_boston_w_l2_norm
0.42500137513291814
它仍然与人们看到的一样。
关于python - 如何从 SKLearn 的 TfidfVectorizer 手动计算 TF-IDF 分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60343826/
SQL 和一般开发的新手,我有一个表(COUNTRIES),其中包含字段(INDEX、NAME、POPULATION、AREA) 通常我添加一个客户端(Delphi)计算字段(DENSITY)和 On
我想使用 calc(100%-100px),但在我的 demo 中不起作用由于高度只接受像素,因此如何将此百分比值转换为像素。 最佳答案 以下将为您提供高度: $(window).height();
我正在尝试在 MySQL 中添加列并动态填充其他列。 例如我有一张表“数字”并具有第 1 列、第 2 列、第 3 列,这些总数应填充在第 4 列中 最佳答案 除非我误解了你的问题,否则你不只是在寻找:
我想返回简单计算的结果,但我不确定如何执行此操作。我的表格如下: SELECT COUNT(fb.engineer_id) AS `total_feedback`, SUM(fb.ra
我一直在尝试做这个程序,但我被卡住了,我仍然是一个初学者,任何帮助将不胜感激。我需要程序来做 打印一个 10 X 10 的表格,其中表格中的每个条目都是行号和列号的总和 包含一个累加器,用于计算所有表
这个计算背后一定有一些逻辑。但我无法得到它。普通数学不会导致这种行为。谁能帮我解释一下原因 printf ("float %f\n", 2/7 * 100.0); 结果打印 1.000000 为什么会
我想计算从 0 到 (n)^{1/2} - 1 的数字的 AND每个数字从 0 到 (n)^{1/2} - 1 .我想在 O(n) 中执行此操作时间,不能使用 XOR、OR、AND 运算。 具体来说,
如何在 Excel 中将公式放入自定义数字格式?例如(出于说明目的随机示例), 假设我有以下数据: 输入 输出 在不编辑单元格中的实际数据的情况下,我想显示单元格中的值除以 2,并保留两位小数: 有没
每次我在 Flutter 应用程序中调用计算()时,我都会看到内存泄漏,据我所知,这基本上只是一种生成隔离的便捷方法。我的应用程序内存占用增加并且在 GC 之后永远不会减少。 我已将我的代码简化为仅调
我有数字特征观察 V1通过 V12用于目标变量 Wavelength .我想计算 Vx 之间的 RMSE列。数据格式如下。 每个变量“Vx”以 5 分钟的间隔进行测量。我想计算所有 Vx 变量的观测值
我正在寻找一种使用 C 语言计算文件中未知字符数的简单方法。谢谢你的帮助 最佳答案 POSIX 方式(可能是您想要的方式): off_t get_file_length( FILE *file ) {
我正在使用 Postgres,并且我正试图围绕如何在连续日期跨度中得出第一个开始日期的问题进行思考。例如 :- ID | Start Date | End Date =================
我有一个订单表格,我在其中使用 jQuery 计算插件来汇总总数。 此求和工作正常,但生成的“总和”存在问题。总之,我希望用逗号替换任何点。 代码的基础是; function ($this) {
我在使用 double 变量计算简单算术方程时遇到问题。 我有一个具有 double 属性 Value 的组件,我将此属性设置为 100。 然后我做一个简单的减法来检查这个值是否真的是 100: va
我在这里看到了一些关于 CRC 32 计算的其他问题。但没有一个让我满意,因此是这样。 openssl 库是否有任何用于计算 CRC32 的 api 支持?我已经在为 SHA1 使用 openssl,
当我在PHP日期计算中遇到问题时,我感到惊讶。 $add = '- 30 days'; echo date('Y-m-01', strtotime($add)); // result is 2017-
我正在使用 javascript 进行练习,我编写了这个脚本来计算 2 个变量的总和,然后在第三个方程中使用这个总和!关于如何完成这项工作的任何想法都将非常有用! First Number:
我有一个来自EAC的提示单和一个包含完整专辑的FLAC文件。 我正在尝试制作一些python脚本来播放文件,因为我需要能够设置在flac文件中开始的位置。 如何从CueSheet格式MM:SS:FF转
这个问题已经有答案了: Adding two numbers concatenates them instead of calculating the sum (24 个回答) 已关闭去年。 我有一个
4000 我需要上面字段 name="quantity" 和 id="price" 中的值,并使用 javascript 函数进行计算,并将其显示在字段 id= 中仅当我单击计算按钮时才显示“总
我是一名优秀的程序员,十分优秀!