python - Python 中的高性能模糊字符串比较，使用 Levenshtein 或 difflib-6ren

python - Python 中的高性能模糊字符串比较，使用 Levenshtein 或 difflib

转载作者：IT老高更新时间：2023-10-28 21:05:48

43

4

我正在进行临床信息规范化(拼写检查)，其中我将每个给定的单词与 900,000 个单词的医学词典进行核对。我更关心时间复杂度/性能。

我想做模糊字符串比较，但不确定使用哪个库。

选项 1:

import Levenshtein
Levenshtein.ratio('hello world', 'hello')

Result: 0.625

选项 2:

import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()

Result: 0.625

在这个例子中，两者都给出了相同的答案。您认为在这种情况下两者的表现是否相同？

最佳答案

如果您对 Levenshtein 和 Difflib 相似性的快速直观比较感兴趣，我计算了大约 230 万本书的标题:

import codecs, difflib, Levenshtein, distance

with codecs.open("titles.tsv","r","utf-8") as f:
    title_list = f.read().split("\n")[:-1]

    for row in title_list:

        sr      = row.lower().split("\t")

        diffl   = difflib.SequenceMatcher(None, sr[3], sr[4]).ratio()
        lev     = Levenshtein.ratio(sr[3], sr[4]) 
        sor     = 1 - distance.sorensen(sr[3], sr[4])
        jac     = 1 - distance.jaccard(sr[3], sr[4])

        print diffl, lev, sor, jac

然后我用 R 绘制了结果:

enter image description here

出于好奇，我还比较了 Difflib、Levenshtein、Sørensen 和 Jaccard 的相似度值:

library(ggplot2)
require(GGally)

difflib <- read.table("similarity_measures.txt", sep = " ")
colnames(difflib) <- c("difflib", "levenshtein", "sorensen", "jaccard")

ggpairs(difflib)

结果: enter image description here

Difflib/Levenshtein 的相似性确实很有趣。

2018 年编辑:如果您正在努力识别相似的字符串，您还可以查看 minhashing——有一个 great overview here . Minhashing 擅长在线性时间内发现大型文本集合中的相似性。我的实验室在此处组装了一个应用程序，该应用程序使用 minhashing 检测和可视化文本重用:https://github.com/YaleDHLab/intertext

关于python - Python 中的高性能模糊字符串比较，使用 Levenshtein 或 difflib，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6690739/

43

4

0

文章推荐： python - 在Django中的文本字段上禁用自动完成？

文章推荐： Javassist。主要思想是什么，真正的用途是什么？

文章推荐： python - 在列表中已有的每个项目之间添加一个项目

文章推荐： Java Files.write NoSuchFileException

java - 高性能
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
javascript - 高性能 - 在对键进行排序时将对象转换为数组
我有以下对象: var myObj = { "4":{//The key is a number String. id:4,name
c++ - 在字典中查找单词模式，高性能
我需要构建某种字典，其中还包含每个单词在该语言中出现的单词频率。通常，这将使用 std::unordered_map 来实现，对吧？现在问题来了……我想找到所有符合某些正则表达式的单词及其频率，而性能
高并发、高性能、高可用系统设计经验
软件开发通常会提到一个名词 “三高”，即高并发、高性能、高可用。具体的指标定义，如：高并发方面要求QPS 大于 10万；高性能方面要求请求延迟小于 100 ms；高可用方面要高于 99.99
performance - 高性能 WebGL 框架
我有一个大约有 108000 个三角形的网格，应该用 WebGL 渲染。目前我不使用框架，只使用纯 WebGL。我已经通过 id 映射实现了对象识别，以便使用回调功能和基本的相机操纵器进行拾取。现
javascript - 高性能 Javascript 固定滚动
我读过无数的帖子，无数次地重写过代码，我发现自己碰壁了。由于应用了 CSS scale3d 转换的容器，我试图克服在滚动页面时不使用 CSS 固定元素位置的限制。虽然我最新的解决方案有效，但它有时仍然
performance - 高性能 SQLite 的选项
我正在开发一个嵌入式系统，它需要非常频繁地存储和检索数据。我预计每秒可能有 100 次写入和 10 次读取。数据将以突发而不是连续的方式到达。我想使用 SQLite 来存储所有这些数据，但由于它是一
javascript - 在网络应用程序中处理事件跟踪的最佳(高性能)方法
当前情况在我们的一款 SPA Web 应用程序中，我们使用自定义跟踪器请求来跟踪各种用户操作，例如 cta 点击、页面导航等，该请求将一些信息传递到后端使用 POST 请求。问题现在，因为这些跟
haskell - 高性能 Haskell 哈希结构。
我正在编写执行大量表查找的程序。因此，当我偶然发现 Data.Map (当然)，以及 Data.HashMap 和 Data.Hashtable 时，我正在仔细阅读 Haskell 文档>。我不是散列
performance - 高性能 BPEL 引擎？
我正在评估我们的高性能电信应用程序的 BPEL 引擎，但性能似乎很差。我们评估了 Apache Ode、SunBPEL 引擎、Active BPEL 等。您知道任何更快的 BPEL 引擎实现或 C/C
c# - 高性能 mysql INSERT
我目前正在重写一个旧的 ASP\ASP.NET 应用程序。由于我无法完全重写，所以我需要分部分进行。现在我正在将代码库从 ODBC 升级到 .net 连接器。有一个函数可以在用户每次访问页面时进行一
javascript - 高性能 dom 添加和删除
旁注:我正在使用 JQuery，但没有使用任何第三方表格组件(我现在也不能)。我的问题是我应该能够显示很多(10000)条经过的消息——每秒都会有数百条新消息，它们应该被添加到底部。当我们达到 10
mysql - 高性能 mysql 行内文本字段
为了争论，假设我试图在 MySQL 表中表示一个非常简单的文件系统。请注意，这并不是我正在做的，它只是为问题的简单基础做准备。所以不要费心告诉我存储文件的更好方法。该表的架构如下: varchar p
python - 超越循环:高性能，大格式的数据文件解析
我希望优化我使用python时遇到的大数据解析问题的性能。以防有人感兴趣：下面显示的数据是六种灵长类动物全基因组DNA序列比对的片段。目前，我知道如何处理这类问题的最好方法是打开我的~250（大小2
ruby - 高性能 ETL 平面文件提取的更好解决方案？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
ruby - 高性能 Ruby 列表框
我需要用 Ruby 制作一个小应用程序，它将以不同颜色显示通过 TCP 接收的日志行。推荐用于此类应用的 GUI 框架是什么？我应该在 Windows 和 Linux 上工作。最佳答案 Shoes
concurrency - 高性能(但笨拙)的网络服务器
我正在尝试编写一个非常简单的 Web 服务器来执行以下操作: 接收请求。响应一个小文件；关闭连接。处理请求数据。换句话说，响应不依赖于请求信息，但请求信息仍然很重要。数据将被保留，然后用于分析。
c# - 高性能 WebSocket 游戏服务器的单点登录？
我正在使用 WebSocket 协议(protocol)(通过 WebSocketSharp)开发 C# 游戏服务器。目前，每当用户登录游戏时，我都会创建一个 token 并将其添加到 Concurr
java - 高性能 hibernate 插入
我正在处理应用程序的延迟敏感部分，基本上我会收到一个网络事件来转换数据，然后将所有数据插入到数据库中。在分析之后，我发现基本上我所有的时间都花在了保存数据上。这是代码 private void ins
c++ - 高性能 QImage 输出显示
我正在尝试将视频输出(帧序列)输出到任何 qt 可见小部件。一开始我认为 QLabel 就足够了......但我错了。转换为像素图对于大型图像的处理器来说过于过载:例如 1080p。还有其他解决方案

首页

博学

6Ren·AI

商城

python - Python 中的高性能模糊字符串比较，使用 Levenshtein 或 difflib