pattern-matching - 按最大值或总值归一化？-6ren

pattern-matching - 按最大值或总值归一化？

转载作者：行者123 更新时间：2023-12-04 07:25:09

27

4

我正在做一些涉及文档比较的工作。为此，我正在分析每个文档，并基本上计算某些关键字出现在每个文档中的次数。例如:

Document 1:                          Document 2:
    Book   -> 3                          Book   -> 9
    Work   -> 0                          Work   -> 2
    Dollar -> 5                          Dollar -> 1
    City   -> 18                         City   -> 6

所以在计数过程之后，我将所有这些数字序列存储在一个向量中。这个数字序列将代表每个文档的特征向量。

Document 1: [ 3,  0,  5, 18]
Document 2: [ 9,  2,  1,  6]

最后一步是对 [0 1] 范围内的数据进行标准化。 .但在这里我意识到这可以通过两种不同的方法来完成:

将每个数字序列除以重复总数

将每个数字序列除以最大重复次数

按照第一种方法，归一化的结果将是:

Document 1: [ 0.11538,  0.00000,  0.19231, 0.69231]   (divided by 26)
Document 2: [ 0.50000,  0.11111,  0.05556, 0.33333]   (divided by 18)

在遵循第二种方法时，结果将是:

Document 1: [ 0.16667,  0.00000,  0.27778, 1.00000]   (divided by 18)
Document 2: [ 1.00000,  0.22222,  0.11111, 0.66667]   (divided by  9)

对于此特定情况:

这两种方法中哪一种会增强特征向量的表示和比较？

结果会一样吗？

对于特定的相似性度量(欧几里得、余弦)，这些方法中的任何一种都会更好地工作吗？

最佳答案

符号

假设您有两个向量 A和 B ，您使用 x作为 A 的归一化常数和 y作为 B 的归一化常数.由于您正在计算单词出现次数，我们可以假设 x > 0和 y > 0 .

余弦距离

对于下面显示的余弦距离，将抵消归一化常数。很容易看出，你最终会得到一个常数1/(xy)在枚举器中，和一个相同的常量 1/(xy)在分母上。所以你可以取消1/(xy) .

enter image description here

欧几里得距离

对于欧几里得距离，上面的情况并非如此。我在下面列出了一个例子，假设 A和 B是二维向量。 n 维向量只是一个简单的扩展。 A'和 B'是 A 的归一化向量和 B分别。

比较 dist(A,B) 的非规范化版本使用规范化版本 dist(A',B') ，您可以看到:您选择的归一化常数(最大值或总和)决定了 x1^2+x2^2 上的权重。 , y1^2+y2^2和相互作用的术语。因此，不同的归一化常数会给你不同的距离。

特征向量

如果这是为了某些信息检索目的或主题提取，您是否尝试过 TF-IDF ?这可能比纯粹计算术语的出现次数更好。

关于pattern-matching - 按最大值或总值归一化？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13638464/

27

4

0

文章推荐： SwiftUI 出现 AVAudioPlayer 播放多次

文章推荐： windows-services - jenkins 服务无法在 Windows 2008 上启动

python - 总值(value)错误的分布图
创建我用下面的代码制作了分布图: from numpy import * import numpy as np import matplotlib.pyplot as plt sigma = 4.1
jquery - 每行 knockout 总值(value)
我想我已经尝试了这方面的所有方法，但我无法弄清楚这一点。我只是想在用户增加数量时更新表中每一行的总价。到目前为止我已经尝试过 HTML 中的数学:data-bind="text: parseFloat
php - Laravel Group By 和其他列的 Sum 总值
我的数据库中有一个表，如下所示: id | date | amount ======================== 1 | 2015-01-26 | 1000 2 | 2015-
javascript - 总值(value)数字经常与 Highcharts 条形图中的条形重叠
我有一个条形图，总值通常重叠在上面，如下所示。我尝试减少图形的面积、宽度和高度，这个问题得到解决，但对于其他一些值再次出现，是否有任何永久的解决方案来避免重叠？请查找下面的代码 $('#' + d
php - 所有付款的 MYSQL 总值(value)字段
我一直在四处寻找，似乎找不到这个问题的答案，希望得到任何帮助。简而言之，我有两个表:付款表和成员(member)表。我已执行以下操作来查找成员(member) ID 与付款 ID 列中的 ID 匹

首页

博学

6Ren·AI

商城

pattern-matching - 按最大值或总值归一化？