python - 解包 SequenceMatcher 循环结果

转载作者：行者123 更新时间：2023-11-30 21:54:06

26

4

在 Python 中解压 SequenceMatcher 循环结果以便轻松访问和处理值的最佳方法是什么？

from difflib import *

orig = "1234567890"

commented = "123435456353453578901343154"

diff = SequenceMatcher(None, orig, commented)

match_id = []
for block in diff.get_matching_blocks():
    match_id.append(block)

print(match_id)

字符串整数代表汉字。

当前迭代代码将匹配结果存储在如下列表中:

match_id
[Match(a=0, b=0, size=4), Match(a=4, b=7, size=2), Match(a=6, b=16, size=4), Match(a=10, b=27, size=0)]

我最终想用 "{{" 和 "}}" 标记注释，如下所示:

"1234{{354}}56{{3534535}}7890{{1343154}}"

这意味着，我有兴趣解压上述 SequenceMatcher 结果，并对特定的 b 和 size 值进行一些计算以生成此序列:

rslt = [[0+4,7],[7+2,16],[16+4,27]]

这是[b[i]+size[i],b[i+1]]的重复。

最佳答案

1。解压 `SequenceMatcher` 结果以生成序列

您可以解压缩match_id，然后对表达式使用列表理解。

a, b, size = zip(*match_id)
# a    = (0, 4,  6, 10)
# b    = (0, 7, 16, 27)
# size = (4, 2,  4,  0)

rslt = [[b[i] + size[i], b[i+1]] for i in range(len(match_id)-1)]
# rslt = [[4, 7], [9, 16], [20, 27]]

Python 内置函数 zip 的引用:https://docs.python.org/3/library/functions.html#zip

2。用 `"{{"` 和 `"}}"`

标记注释

您可以循环遍历 rslt，然后很好地附加 match-so-far 并标记出注释。

rslt_str = ""
prev_end = 0

for start, end in rslt:
    rslt_str += commented[prev_end:start]
    if start != end:
        rslt_str += "{{%s}}" % commented[start:end]
    prev_end = end
# rslt_str = "1234{{354}}56{{3534535}}7890{{1343154}}"

关于python - 解包 SequenceMatcher 循环结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59419950/

26

4

0

文章推荐： mysql - UniqueEntity 验证失败 - Symfony？

文章推荐： c# - 将未知类型的对象传递给函数

文章推荐： c# - 使用 C# Windows 窗体应用程序在 datagridview 中拖放

python - 具有自定义比较功能的 SequenceMatcher
我尝试执行以下代码:(在 python 中) from difflib import SequenceMatcher as sm class myint(int): def __cmp__(s
Python Sequencematcher 给出不完全匹配
我正在尝试使用 Python 的 SequenceMatcher 查找两个字符串之间的匹配 block 。字符串为 "ABCDPQRUVWXYZ" 和 "PQRABCDUVWXYZ"。但是，当我应用
python - SequenceMatcher - 找到两个或多个数据列表中两个最相似的元素
我试图将一组字符串与一组已定义的字符串进行比较。例如，您想要查找一封信件的收件人，该信件的文本通过 OCR 数字化。有一个地址数组，其中有字典作为元素。每个元素都是唯一的，包含 ID、姓名、街道、邮
python diff SequenceMatcher - 修补列表
我修补了一个列表，使其看起来像另一个列表: a = [x for x in "qabxcd"] b = [x for x in "abycdf"] c = a[:] s = SequenceMatch
python - 解包 SequenceMatcher 循环结果
在 Python 中解压 SequenceMatcher 循环结果以便轻松访问和处理值的最佳方法是什么？ from difflib import * orig = "1234567890" comme
python - 用于多个输入的 SequenceMatcher，而不仅仅是两个？
想知道解决这个特定问题的最佳方法以及是否有任何库(最好是 python，但如果需要我可以灵活处理)。我有一个文件，每一行都有一个字符串。我想找到最长的常见模式及其在每一行中的位置。我知道我可以使用
python - 如何使用 SequenceMatcher 查找两个字符串之间的相似性？
import difflib a='abcd' b='ab123' seq=difflib.SequenceMatcher(a=a.lower(),b=b.lower()) seq=difflib.S
JAVA:(格式塔)模式匹配或替换 difflib.sequencematcher
我正在寻找一种比较两个字符串的方法。但不是简单的 equals()。我需要一些指标来说明那些与 String 匹配的可能性有多大。因此，例如(值是一个未计算的猜测): 《汽车》和《汽车》重播1.0 “
python - 使用 SequenceMatcher (Python) 生成内容差异
我想在 Python 中生成文本修订(更具体地说，Markdown 格式的文章)之间的差异。我想以类似于 Github 的方式格式化此差异我查看了 difflib 并发现它可以满足我的要求。但是，
python - 比较列表中的单词而不是字母 - 从 SequenceMatcher 包中获得意外输出
我正在做一个项目，它从我存储在 2 个文本文件(nyt.text 和 wapo.text)中的报纸网站获取标题并比较它们相互比较，如果字符串被 Python 内置的 SequenceMatcher 确
python - 如何使用 difflib.SequenceMatcher 获得多个匹配项？
我正在使用 difflib 来识别较长序列中短字符串的所有匹配项。然而，当有多个匹配项时，difflib 似乎只返回一个: > sm = difflib.SequenceMatcher(None, a
python - Difflib 的 SequenceMatcher - 自定义相等
我一直在尝试使用 SequenceMatcher 创建嵌套或递归效果。最终目标是比较两个序列，它们都可能包含不同类型的实例。例如，序列可以是: l1 = [1, "Foo", "Bar", 3]
python - Python 的 SequenceMatcher 是如何工作的？
我对 SequenceMatcher 返回的两个不同答案感到有点困惑取决于参数的顺序。为什么会这样？例子 SequenceMatcher 不可交换: >>> from difflib import
python - 不考虑 difflib.SequenceMatcher isjunk 参数？
在 python difflib 库中，SequenceMatcher 类的行为是否异常，或者我误读了假定的行为是什么？为什么 isjunk 参数在这种情况下似乎没有任何区别？ difflib.Se
python - SequenceMatcher.ratio 如何在 difflib 中工作
我在试用 python 的 difflib 模块时遇到了 SequenceMatcher。因此，我尝试了以下示例，但无法理解发生了什么。 >>> SequenceMatcher(None,"abc",
python - Python 3.6 SequenceMatcher().get_matching_blocks() 如何工作？
我正在尝试使用 SequenceMatcher.ratio()获取两个字符串的相似度:"86418648"和 "86488648" : >>> SequenceMatcher(None,"864186
Python SequenceMatcher 开销 - 100% 的 CPU 使用率和非常缓慢的处理
我正在使用 difflib 比较两个目录中的文件(连续年份的版本)。首先，我使用 filecmp 查找已更改的文件，然后迭代使用 difflib.SequenceMatcher 比较它们并生成 htm
python - 使用 difflib SequenceMatcher 比率在 Pandas 中合并
我试图弄清楚是否有一种方法可以根据 difflib SequenceMatcher 比例对 Pandas 中的字符串进行模糊合并。基本上，我有两个数据框，如下所示: df_a company a
Python Difflib 的 SequenceMatcher 没有找到最长公共(public)子串
我想使用 difflib.SequenceMatcher 从两个字符串中提取最长的公共(public)子字符串。我不确定我是发现了错误还是误解了 find_longest_match 的文档。这是我感
python - Difflib.SequenceMatcher isjunk可选参数查询: how to ignore whitespaces,制表符，空行？
我正在尝试使用 Difflib.SequenceMatcher 来计算两个文件之间的相似性。这两个文件几乎完全相同，只是一个文件包含一些额外的空格、空行而另一个则没有。我正在尝试使用 s=diffli

首页

博学

6Ren·AI

商城

python - 解包 SequenceMatcher 循环结果

1。解压 `SequenceMatcher` 结果以生成序列

2。用 `"{{"` 和 `"}}"`

首页

博学

6Ren·AI

商城

python - 解包 SequenceMatcher 循环结果

1。解压 SequenceMatcher 结果以生成序列

2。用 "{{" 和 "}}"

1。解压 `SequenceMatcher` 结果以生成序列

2。用 `"{{"` 和 `"}}"`