- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我正在研究一个非常粗略的初稿算法,以确定 2 个字符串的相似程度。我也在使用 Levenshtein Distance计算字符串之间的编辑距离。
我目前所做的基本上是将编辑总数除以较大字符串的大小。如果该值低于某个阈值,目前随机设置为 25%,那么它们“足够相似”。
但是,这完全是任意的,我认为这不是计算相似度的好方法。是否有某种数学方程或概率/统计方法来获取 Levenshtein 距离数据并使用它来表示“是的,这些字符串根据所做的编辑次数和字符串的大小足够相似”?
另外,这里的关键是我使用的是任意阈值,我不想这样做。如何计算这个阈值而不是分配它,以便我可以安全地说 2 个字符串“足够相似”?
我正在比较代表 Java 堆栈跟踪的字符串。我想这样做的原因是按相似性对一组给定的堆栈跟踪进行分组,并将其用作过滤器来对“东西”进行排序:) 这种分组对于更高层次的原因很重要,我不能完全公开分享。
到目前为止,我的算法(伪代码)大致如下:
/*
* The input lists represent the Strings I want to test for similarity. The
* Strings are split apart based on new lines / carriage returns because Java
* stack traces are not a giant one-line String, rather a multi-line String.
* So each element in the input lists is a "line" from its stack trace.
*/
calculate similarity (List<String> list1, List<String> list2) {
length1 = 0;
length2 = 0;
levenshteinDistance = 0;
iterator1 = list1.iterator();
iterator2 = list2.iterator();
while ( iterator1.hasNext() && iterator2.hasNext() ) {
// skip blank/empty lines because they are not interesting
str1 = iterator1.next(); length1 += str1.length();
str2 = iterator2.next(); length2 += str2.length();
levensteinDistance += getLevenshteinDistance(str1, str2);
}
// handle the rest of the lines from the iterator that has not terminated
difference = levenshteinDistance / Math.max(length1, length2);
return (difference < 0.25) ? true : false; // <- arbitrary threshold, yuck!
}
最佳答案
如何使用余弦相似度?这是评估两个文本之间相似性的通用技术。它的工作原理如下:
从两个字符串中取出所有字母,然后构建一个像这样的表:
Letter | String1 | String2
这可以是一个简单的哈希表或其他任何东西。
在字母列中放入每个字母,在字符串列中将它们的频率放入该字符串中(如果字母未出现在字符串中,则值为 0)。
之所以称为余弦相似度,是因为您将两个字符串列中的每一个都解释为 vector ,其中每个分量都是与字母关联的数字。接下来,计算 vector 之间“角度”的余弦为:
C = (V1 * V2) / (|V1| * |V2|)
分子是点积,即对应分量的乘积之和,分母是 vector 大小的乘积。
C 与 1 的接近程度表明字符串有多相似。
它可能看起来很复杂,但是一旦你理解了这个想法,它只是几行代码。
让我们看一个例子:考虑字符串
s1 = aabccdd
s2 = ababcd
表格如下:
Letter a b c d
s1 2 1 2 2
s2 2 2 1 1
因此:
C = (V1 * V2) / (|V1| * |V2|) =
(2 * 2 + 1 * 2 + 2 * 1 + 2 * 1) / (sqrt(13) * sqrt(10)) = 0.877
所以它们“非常”相似。
关于java - 什么是确定 2 个字符串是否为 "similar enough"的好指标,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8451578/
我想编写代码来查找两个句子之间的相似性,然后我最终使用 nltk 和 gensim 编写了这段代码。我使用标记化和 gensim.similarities.Similarity 来完成这项工作。但这不
package com.game; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax
作为熟悉 Tensorflow 的一种方式,我正在尝试验证 word2vec_basic.py(请参阅 tutorial)生成的词嵌入在对照人类相似性分数进行检查时是否有意义。然而,结果出人意料地令人
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
问题:一些 R 包具有 Levenshtein 距离实现,用于计算两个字符串的相似度,例如http://finzi.psych.upenn.edu/R/library/RecordLinkage/ht
我需要找到两个数据数组之间的相似性度量。您可以将相似性度量称为任何您想要的名称,差异、相关性或任何其他名称。 例如: 1, 2, 3, 4, 5 < Series 1 2, 3, 4, 5, 6
虽然它们非常相似,但我确信 Pearson 相关相似度和调整余弦相似度之间存在一些差异,因为所有的论文和网页都将它们分为两种不同的类型。 然而,它们都没有提供明确的定义。 Here是其中一页。 谁能说
如何使用similarities.gensim中的Similarity 因为如果我使用 similarities.MatrixSimilarity: index = similarities.Matr
我想得到两个词的相似度百分比,eg) abcd versus zzabcdzz == 50% similarity 不需要非常准确。有什么办法吗?我正在使用 python,但可以随意推荐其他语言。 最
题目地址:https://leetcode-cn.com/problems/sentence-similarity/ 题目描述 Given two sentences words1, words2
我的 df 有以下条目: A xxx xxx xxx1 xx1x yyyy gggg 我想根据以下条件,根据 A 列的相似性将符号添加到我的 df 的 B 列。 我将阈值设置为 = 或 > 75% 相
我正在使用word2vec来表示一个小词组(3至4个单词)作为唯一矢量,方法是将每个单词嵌入相加或计算单词嵌入的平均值。 通过实验,我总是得到相同的余弦相似度。我怀疑这与在训练后将word2vec生成
我如何编写代码来查找与用户当前正在阅读的文章相关(相似)的文章? 例如,假设我有文章: Python programming tips Python programming for newbies P
我一直在从事一个关于句子相似度的项目。我知道它已经被问过很多次了,但我只是想知道我的问题是否可以通过我正在做的方式使用的方法来完成,或者我应该改变我解决问题的方法。粗略地说,系统应该分割一篇文章的所有
我有一个由字符串主机名和列表服务列表定义的对象“ObjectName”。 两个 serviceList 可能包含一个或多个相同的字符串。 每个字符串都是一个方法的名称。不能有相同名称的方法执行不同的操
我在 playframework 2.2 中使用 postgresql 和 jpa。 我正在尝试在我的JPQL中使用like with in,方法是使用类似于类似this的东西。线程。 select
如何计算 RGBA 颜色空间中两种颜色之间的相似度?(背景颜色当然未知) 我需要通过查找图像中每个像素的最佳调色板条目*,将 RGBA 图像重新映射到 RGBA 颜色调色板。 在 RGB 颜色空间中,
需要您的另一个提示: 我有一个包含系统路径的列表: C:\System\local\something\anything C:\System\local\anywhere\somewhere C:\S
我的应用程序布局有点棘手,所以主要问题是支持不同的屏幕。让我们以两部手机 HTC Sensation (4.3"960x540 256dpi) 和 Droid (3.7"854x480 265dpi)
我有一个应用程序。它不是电子邮件应用程序。但它具有类似于电子邮件的功能,用户可以选择在发送消息的同时发送附件。例如,当我在我的 gmail 上单击添加附件时,我可以选择附加任何内容,例如视频、音乐、图
我是一名优秀的程序员,十分优秀!