- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在做一些涉及文档比较的工作。为此,我正在分析每个文档,并基本上计算某些关键字出现在每个文档中的次数。例如:
Document 1: Document 2:
Book -> 3 Book -> 9
Work -> 0 Work -> 2
Dollar -> 5 Dollar -> 1
City -> 18 City -> 6
Document 1: [ 3, 0, 5, 18]
Document 2: [ 9, 2, 1, 6]
[0 1]
范围内的数据进行标准化。 .但在这里我意识到这可以通过两种不同的方法来完成:
Document 1: [ 0.11538, 0.00000, 0.19231, 0.69231] (divided by 26)
Document 2: [ 0.50000, 0.11111, 0.05556, 0.33333] (divided by 18)
Document 1: [ 0.16667, 0.00000, 0.27778, 1.00000] (divided by 18)
Document 2: [ 1.00000, 0.22222, 0.11111, 0.66667] (divided by 9)
最佳答案
符号
假设您有两个向量 A
和 B
,您使用 x
作为 A
的归一化常数和 y
作为 B
的归一化常数.由于您正在计算单词出现次数,我们可以假设 x > 0
和 y > 0
.
余弦距离
对于下面显示的余弦距离,将抵消归一化常数。很容易看出,你最终会得到一个常数1/(xy)
在枚举器中,和一个相同的常量 1/(xy)
在分母上。所以你可以取消1/(xy)
.
欧几里得距离
对于欧几里得距离,上面的情况并非如此。我在下面列出了一个例子,假设 A
和 B
是二维向量。 n 维向量只是一个简单的扩展。 A'
和 B'
是 A
的归一化向量和 B
分别。
比较 dist(A,B)
的非规范化版本使用规范化版本 dist(A',B')
,您可以看到:您选择的归一化常数(最大值或总和)决定了 x1^2+x2^2
上的权重。 , y1^2+y2^2
和相互作用的术语。因此,不同的归一化常数会给你不同的距离。
特征向量
如果这是为了某些信息检索目的或主题提取,您是否尝试过 TF-IDF ?这可能比纯粹计算术语的出现次数更好。
关于pattern-matching - 按最大值或总值归一化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13638464/
创建我用下面的代码制作了分布图: from numpy import * import numpy as np import matplotlib.pyplot as plt sigma = 4.1
我想我已经尝试了这方面的所有方法,但我无法弄清楚这一点。我只是想在用户增加数量时更新表中每一行的总价。到目前为止我已经尝试过 HTML 中的数学:data-bind="text: parseFloat
我的数据库中有一个表,如下所示: id | date | amount ======================== 1 | 2015-01-26 | 1000 2 | 2015-
我有一个条形图,总值通常重叠在上面,如下所示。我尝试减少图形的面积、宽度和高度,这个问题得到解决,但对于其他一些值再次出现,是否有任何永久的解决方案来避免重叠? 请查找下面的代码 $('#' + d
我一直在四处寻找,似乎找不到这个问题的答案,希望得到任何帮助。 简而言之,我有两个表:付款表和成员(member)表。 我已执行以下操作来查找成员(member) ID 与付款 ID 列中的 ID 匹
我是一名优秀的程序员,十分优秀!