python - Levenshtein 距离给出奇怪的值-6ren

python - Levenshtein 距离给出奇怪的值

转载作者：行者123 更新时间：2023-12-03 14:31:12

33

4

这是一个字符串 T :

'men shirt team brienne funny sarcasm shirt features graphic tees mugs babywear much real passion brilliant design detailed illustration strong appreciation things creative br shop thousands designs found across different shirt babywear mugs funny pop culture abstract witty many designs brighten day well day almost anyone else meet ul li quality short sleeve crew neck shirts 100 cotton soft durable comfortable feel fit standard size doubt l xl available li li sustainability label company conceived belief textiles industry start acting lot responsibly made cotton li li clothing printed using state art direct garment equipment crack peel washed li li graphic tee designs professionally printed unique design look great make someone smile funny cute vintage expressive artwork li ul'

我已经突出显示了上面字符串的一部分，因为上面是字符串的预处理版本，因此可能难以阅读。
我得到以下值: fuzz.partial_ratio('short sleeve', T)给 50 fuzz.partial_ratio('long sleeve', T)给 73 fuzz.partial_ratio('dsfsdf sleeve', T)给 62 fuzz.partial_ratio('sleeve', T)给 50我对此感到非常困惑。第一个和第四个值不应该是 100 吗？当然我错过了一些东西，但我无法弄清楚。
编辑:这是我在卸载 python-Levenshtein 库后运行的另一个示例:

'first succeed way wife told v 2 long sleeve shirt id 1084 first succeed way wife told v 2 long sleeve shirt design printed quality 100 long sleeve cotton shirt sports gray 90 cotton 10 polyester standard long sleeve shirts fashion fit tight fitting style please check size chart listed additional image feel free contact us first sizing questions satisfaction 100 guaranteed shirts usually ship business day ordered noon est next business day ordered noon est long sleeve shirts 100 cotton standard shirt fashion fit combined shipping multiple items'

fuzz.partial_ratio('long sleeve', T)给出 27 fuzz.partial_ratio('short sleeve', T)给 33 fuzz.partial_ratio('sleeveless', T)给 40 fuzz.partial_ratio('dsfasd sleeve', T)给 23
不幸的是，这个问题似乎不是 python-Levenshtein 库独有的。

最佳答案

fuzzywuzzy 中有一个非常奇怪和微妙的错误。图书馆某处。
如果我们运行以下

from fuzzywuzzy import fuzz

fuzz.partial_ratio('funny', 'aa aaaaa aaaa aaaaaaa funny aaaaaaa aaaaaaaa aaaaaaa aaaa aaaa aaayaaaa auaa aaaa aaaaaaaa aaaaaaaaa aaaaaa aaaaaaaa aaaaa aaaa aa aaaaaaaaaaa aaaaaa aaaffaaaaaaa aaaaa aaayaaaa auaa funny aaaa aaaaaa')

它返回 0而如果我们从这个字符串的开头删除一个字母:

fuzz.partial_ratio('funny', 'a aaaaa aaaa aaaaaaa funny aaaaaaa aaaaaaaa aaaaaaa aaaa aaaa aaayaaaa auaa aaaa aaaaaaaa aaaaaaaaa aaaaaa aaaaaaaa aaaaa aaaa aa aaaaaaaaaaa aaaaaa aaaffaaaaaaa aaaaa aaayaaaa auaa funny aaaa aaaaaa')

它返回 100(对长而可怕的字符串感到抱歉。我试图将其简化为尽可能简单的字符串，但我似乎看不到驱动此错误的逻辑)
好像有 similar bug reports在 Github 上。
安装 python-Levenshtein似乎修复了我上面的示例(如果未安装 difflib，fuzzywuzzy 将恢复为 python-Levenshtein)，但不会更改您的原始示例。
与 python-Levenshtein安装后，我可以将您的示例简化为:

fuzz.partial_ratio('sleeve', 's l e e v sleeve e ')

返回 50 .
从较长的字符串中删除第一个字母:

fuzz.partial_ratio('sleeve', 'l e e v sleeve e ')

返回 100 .
这提供了有关可能发生的事情的某种提示，但我怀疑这需要深入了解 python-Levenshtein弄清楚。
我的推荐？提交错误报告。然后找到另一个库来比较字符串。 RapidFuzz可能是一个合适的选择。
更新:
我认为这个bug可能与 opcodes的使用有关来自 python-Levenshtein图书馆:

from Levenshtein import opcodes

opcodes('sleeve', 's l e e v sleeve e ')

返回:

[('equal', 0, 1, 0, 1),
 ('insert', 1, 1, 1, 2),
 ('equal', 1, 2, 2, 3),
 ('insert', 2, 2, 3, 4),
 ('equal', 2, 3, 4, 5),
 ('insert', 3, 3, 5, 6),
 ('equal', 3, 4, 6, 7),
 ('insert', 4, 4, 7, 8),
 ('equal', 4, 5, 8, 9),
 ('insert', 5, 5, 9, 12),
 ('equal', 5, 6, 12, 13),
 ('insert', 6, 6, 13, 19)]

在 fuzzywuzzy 中使用时，这显然不是预期的结果，即使这些是一组最少的编辑操作。在 fuzzywuzzy ，优先级应该放在连续块上，而 Levenshtein 距离的正式定义并没有优先考虑连续块和非连续块(至少我的理解不是这样)。请注意 difflib.SequenceMatcher.get_opcodes()给出不同的结果。
我怀疑需要一些非常仔细的考虑来修复这个错误并使其正确。

关于python - Levenshtein 距离给出奇怪的值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66738821/

33

4

0

文章推荐： android - 使用 SQLCipher 后我的 SQLite 数据库是否安全？

文章推荐： c# - 任何人都知道 IL/CLR 如何准确生成局部函数 C#7

文章推荐： python - nbdev 和 'coroutine' 对象不可下标

文章推荐： ocelot - 无法合并 Ocelot 配置文件

java - 如何解析名称=值^^名称=值^^名称=值
我的问题:非常具体。我正在尝试想出解析以下文本的最简单方法: ^^domain=domain_value^^version=version_value^^account_type=account_ty
Python:尝试创建与(或(值，值，值))的等价物
好吧，这就是我的困境: 我正在为 Reddit 子版 block 开发常见问题解答机器人。我在 bool 逻辑方面遇到了麻烦，需要一双更有经验的眼睛(这是我在 Python 中的第一次冒险)。现在，该
excel - 如何使循环同时运行所有 X 和 Y 值，现在它运行所有 Y 值，然后运行所有 X 值
它首先遍历所有 y 值，然后遍历所有 x 值。我需要 X 和 y 同时改变。 For x = 3 To lr + 1 For y = 2 To lr anyl.Cells(x, 1)
excel - SUMIF(条件，值)、SUMPROD(条件，值)和 SUM(条件*值)之间的区别
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
python - 将 Z 值(Z 值，标准分数)转换为 Python 中正态分布的 p 值
如何转换 Z-score来自 Z-distribution (standard normal distribution, Gaussian distribution)到 p-value ?我还没有找到
javascript( bool 值 ^ bool 值)
我正在重写一些 Javascript 代码以在 Excel VBA 中工作。由于在这个网站上搜索，我已经设法翻译了几乎所有的 Javascript 代码!但是，有些代码我无法准确理解它在做什么。这是一
php - 在php中的数组内添加新的键，值(值= 1)
我遇到过包含日期格式的时间戳日期的情况。然后我想构建一个图表，显示“点击”项目的数量“每天”， //array declaration $array1 = array("Date" => 0); $a
scala - Option(值)和Some(值)之间的差异
我是scala的新手! 我的问题是，是否有包含成员的案例类 myItem:Option[String] 当我构造类时，我需要将字符串内容包装在: Option("some string") 要么 So
php - 从表中选择 * 其中列 = 值 ^ column2 = 值
我正在用 PHP 创建一个登录系统。我需要用户使用他或她的用户名或电子邮件或电话号码登录然后使用密码。因为我知道在 Java 中我们会像 email==user^ username == user 这
c++ - WHERE 列 = 值，仅适用于 INTEGER 值
我在 C++ 项目上使用 sqlite，但是当我在具有文本值的列上使用 WHERE 时出现问题我创建了一个 sqlite 数据库: CREATE TABLE User( id INTEGER
c++ - 类类名(值)；和类类名=值；显式构造函数时的区别
当构造函数是显式时，它不用于隐式转换。在给定的代码片段中，构造函数被标记为 explicit。那为什么在 foo obj1(10.25); 情况下它可以工作，而在 foo obj2=10.25; 情况
c# - : if(! 值) 或 if(flag == 值) 哪个更清晰？
我知道这是一个主观问题，所以如果需要关闭它，我深表歉意，但我觉得它经常出现，让我想知道是否普遍偏爱一种形式而不是另一种形式。显然，最好的答案是“重构代码，这样你就不需要测试是否存在错误”，但有时没有
jquery - [属性~=值] 和 [属性*=值] 有什么区别？
这两个 jQuery 选择器有什么区别？以下是来自 w3schools.com 的定义: [attribute~=value] 选择器选择带有特定属性，其值包含特定字符串。 [attribute*=
CSS [属性|=值] 与 [属性*=值] 选择器
为什么我们需要CSS [attribute|=value] Selector根本当 CSS3 [attribute*=value] Selector基本上完成相同的事情，浏览器兼容性几乎相似？是否存在
java - 正则表达式仅验证 0 值。要验证的单个 0 值
我正在解决 regx 问题。我已经有一个像这样的 regx [0-9]*([.][0-9]{2})。这是 amont 格式验证。现在，通过此验证，我想包括不应提供 0 金额。比如 10 是有效的，但
java - 尽管代码删除了 "0"值，但为什么列表中仍保留 "0"值？
我正在研究计算机科学 A 考试的样题，但无法弄清楚为什么以下问题的正确答案是正确的。考虑以下方法。 public static void mystery(List nums) { for (
perl - 基本的 Perl 散列排序键，值，但也键 AND 值
好的，我正在编写一个 Perl 程序，它有一个我收集的值的哈希值(完全在一个完全独立的程序中)并提供给这个 Perl 脚本。这个散列是 (string,string) 的散列。我想通过 3 种方式对
mysql - 根据其他两列选择一列的 MAX 值，其中一列具有 MAX 值
我有一个表数据如下，来自不同的表。仅当第三列具有值“债务”并且第一列(日期)具有最大值时，我才想从第四列中获取最大值。最终值基于 MAX(DATE) 而不是 MAX(PRICE)。所以用简单的语言来说
php - 代码仅更新数据库中的 false 值，但不更新 true 值
我有一个奇怪的情况，只有错误状态保存到数据库中。当“状态”应该为 true 时，我的查询仍然执行 false。我有具有此功能的 Controller public function change_a
mysql SUM(值) 其中 SUM(值) > 2500
我有一个交易表(针对所需列进行了简化): id client_id value 1 1 200 2 2 150 3 1

首页

博学

6Ren·AI

商城

python - Levenshtein 距离给出奇怪的值