- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在从事一个关于句子相似度的项目。我知道它已经被问过很多次了,但我只是想知道我的问题是否可以通过我正在做的方式使用的方法来完成,或者我应该改变我解决问题的方法。粗略地说,系统应该分割一篇文章的所有句子,并在输入系统的其他文章中找到相似的句子。
我使用余弦相似度和 tf-idf 权重,这就是我的做法。
1-首先,我将所有文章分成句子,然后为每个句子生成三元组并对它们进行排序(应该吗?)。
2-我计算三元组的 tf-idf 权重并为所有句子创建向量。
3-我计算原始句子和要比较的句子的点积和大小。然后计算余弦相似度。
但是,系统并没有按照我的预期运行。说到这里,我心里有一些疑问。
据我读过有关 tf-idf 权重的内容,我想它们对于查找类似的“文档”更有用。由于我正在处理句子,因此我通过更改 tf 和 idf 定义公式的一些变量(而不是我尝试提出基于句子的定义的文档)来稍微修改了算法。
tf = 句子中三元出现的次数/句子中所有三元的数量
idf = 所有文章中的所有句子数/出现三元组的句子数
你认为用这样的定义来解决这个问题可以吗?
还有一个是我在计算余弦相似度时看到多次提到归一化。我猜这很重要,因为三元组向量可能大小不同(在我的情况下很少有)。如果一个三元向量的大小为 x,另一个向量的大小为 x+1,那么我将第一个向量视为 x+1 的大小,最后一个值为 0。这就是归一化的含义吗?如果不是,我该如何进行标准化?
除了这些,如果我选择了错误的算法,还有什么可以用于解决此类问题(最好使用 n-gram 方法)?
提前谢谢您。
最佳答案
我不知道你为什么要对每个句子的卦进行排序。计算余弦相似度时,您需要关心的是两个句子中是否出现相同的三元词以及出现的频率。从概念上讲,您在所有可能的三元组中定义了一个固定且通用的顺序。请记住,所有句子的顺序必须相同。如果可能的三元组数为 N,那么对于每个句子,您将获得一个维度为 N 的向量。如果某个三元组没有出现,则将向量中的相应值设置为零。您实际上并不需要存储零,但在定义点积时必须处理它们。
话虽如此,三元组并不是一个好的选择,因为匹配的机会很少。对于高 k,您将从 k 个连续单词的包中获得更好的结果,而不是 k-gram。请注意,袋子内的顺序并不重要,它是一套。您使用的是 k=3 k-gram,但这似乎偏高,尤其是对于句子。要么下降到二元组,要么使用不同长度的袋子,从 1 开始。最好两者都使用。
我相信您已经注意到,不使用精确三元组的句子在您的方法中具有 0 相似度。 K-词袋会有所缓解,但并不能彻底解决问题。因为现在你需要句子来分享实际的单词。两个句子可能相似,但不使用相同的单词。有几种方法可以解决这个问题。使用 LSI(潜在语义索引)或单词聚类并使用聚类标签来定义余弦相似度。
为了计算向量 x 和 y 之间的余弦相似度,您需要计算点积并除以 x 和 y 的范数。向量 x 的 2-范数可以计算为分量平方和的平方根。但是,您还应该在没有任何标准化的情况下尝试您的算法进行比较。通常它工作得很好,因为在计算术语频率 (tf) 时,您已经考虑了句子的相对大小。
希望这有帮助。
关于similarity - 使用余弦相似度测量的 n 元句子相似度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4037174/
性能优化的重要性不言而喻,Google 的 研究表明 ,当网站达到核心 Web 指标(Core Web Vitals)阈值时,用户放弃加载网页的可能性会降低 24%。 如何
我正在创建一个横幅设计创建器(这样人们就可以使用自己的文本、背景、图像、形状等来制作自己的设计)。我的产品有各种尺寸,例如:800x2000 mm、A4(210 x 297mm)、3300x2200m
我不确定如何使用测量来获取单位的全名。例如“公里”而不是“公里”。 let measurement = Measurement(value: 50, unit: UnitLength.meters)
我有一个自定义 ViewGroup,它有一个子 ViewPager。 ViewPager 由 PagerAdapter 提供,该 LinearLayout 向 ViewPager 提供 LayoutP
我想测量一个大型软件项目在 Linux (make) 中构建过程中的内存消耗是多少内存。理想情况下,消耗会按操作(即编译、链接)拆分,但一开始绘制随时间变化的图表可能就足够了。 我有哪些选择? 最佳答
我正在运行一个 SSIS 包来从一个平面文件加载一百万行,它使用一个脚本任务进行复杂的转换和一个 SQL Server 表目标。我试图找出在数据流处理期间将行数(可能是 1000 的倍数以提高效率)写
我正在尝试检查 Keras 模型不同层的执行速度(使用来自 tensorflow 2.3.0 v 的 keras) 我从这个 repo 中获取了代码并修改它,使用 timer() from from
我有一个旧的应用程序,一个 JAR 文件,它经过了一些增强。基本上必须修改代码的某些部分以及修改一些逻辑。 将旧版本与新版本进行比较,新版本比旧版本慢约 2 倍。 我试图缩小导致速度变慢的原因,但我发
我正在尝试测量不同 Silverlight 图表库(例如 Silverlight Control Toolkit、Visifire、Telerik)在屏幕上加载所需的时间。 我的问题是我只能测量加载控
由于 TTFB 会因每个请求而异,因此我想对其进行统计并获取平均值。有谁知道我如何通过 PHP 进行测量?bytecheck.com 网站能够分析这些数据:这是 example.com 的示例:htt
我正在使用 .NET 4.0 C# 编写应用程序。我将对象放在 .net httpruntime 缓存中,并希望在其上生成一些统计信息。我想知道对象在放入缓存之前的大小以及它在缓存中的大小。我该如何衡
我正在寻找某种方法来测量应用程序的启动时间。从点击应用程序图标的那一刻到用户可以看到例如登录页面的那一刻。 最佳答案 跑 flutter run --trace-startup --profile 跟
我正在优化 iPhone 应用程序以实现非常短的加载时间,我想知道: 是否有一种方法可以测量 iPhone 应用程序从用户点击图标到应用程序可用(或至少 –viewDidLoad 被调用)的加载时间?
我无法理解 中的一件事谷歌分析 .我的应用中需要一个功能,例如 一个 用户将我的应用转至 乙用户然后他得到了一些奖励,但我想跟踪 一个 时通过链接的用户 ID乙用户点击该链接然后我可以得到一个 中的用
有没有办法用 DUnit 来衡量代码覆盖率?或者有没有免费的工具可以实现这一点?你用它做什么?您通常追求什么代码覆盖率? Jim McKeeth:感谢您的详细回答。我谈论的是 TDD 方法意义上的单元
当我执行Makefile时,是否可以递归地回荡在make all的每个目标中花费的(系统,用户,实际)时间? 我想以比time make all更细粒度的方式对项目的编译进行基准测试。理想情况下,它将
R 中有衡量函数执行时间的标准化方法吗? 显然我可以在执行之前和之后获取system.time,然后取它们的差异,但我想知道是否有一些标准化的方法或功能(不想发明轮)。 我似乎记得我曾经使用过如下的东
我最近为了好玩而开始学习 Fortran,我想知道是否有任何简单的方法来显示执行我的代码所花费的时间。这只是一个数到一百万的简单循环,我想看看完成这个需要多长时间。 如果有帮助,这是我正在使用的代码:
我正在开发一个 Shiny 的应用程序。 我对计算执行某些代码块(例如 ggplot 等)所需的时间很感兴趣。 出于某种原因,使用通常的时钟方法似乎在响应式(Reactive)调用中不起作用,例如:
我想测量 jpeg 的白色/黄色量(在可调整的容差范围内)。 我正在尝试开发一种质量控制工具来测量杏仁的缺陷。缺陷是棕色杏仁皮上的划痕(见下图)。由于这些缺陷是白色/黄色的,我想要一种简单地将图像加载
我是一名优秀的程序员,十分优秀!