- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
假设我有一个大字符串和一个子字符串数组,它们在连接时等于大字符串(有细微差别)。
例如(注意字符串之间的细微差别):
large_str = "hello, this is a long string, that may be made up of multiple
substrings that approximately match the original string"
sub_strs = ["hello, ths is a lng strin", ", that ay be mad up of multiple",
"subsrings tat aproimately ", "match the orginal strng"]
如何最好地对齐字符串以从原始 large_str
生成一组新的子字符串?例如:
["hello, this is a long string", ", that may be made up of multiple",
"substrings that approximately ", "match the original string"]
附加信息
此用例是从 PDF 文档中提取的文本的现有分页符中查找原始文本的分页符。从 PDF 中提取的文本经过 OCR,与原始文本相比有小错误,但原始文本没有分页符。目标是准确分页原始文本,避免 PDF 文本的 OCR 错误。
最佳答案
使用 Python 的 difflib 实现:
from difflib import SequenceMatcher
from itertools import accumulate
large_str = "hello, this is a long string, that may be made up of multiple substrings that approximately match the original string"
sub_strs = [
"hello, ths is a lng strin",
", that ay be mad up of multiple",
"subsrings tat aproimately ",
"match the orginal strng"]
sub_str_boundaries = list(accumulate(len(s) for s in sub_strs))
sequence_matcher = SequenceMatcher(None, large_str, ''.join(sub_strs), autojunk = False)
match_index = 0
matches = [''] * len(sub_strs)
for tag, i1, i2, j1, j2 in sequence_matcher.get_opcodes():
if tag == 'delete' or tag == 'insert' or tag == 'replace':
matches[match_index] += large_str[i1:i2]
while j1 < j2:
submatch_len = min(sub_str_boundaries[match_index], j2) - j1
while submatch_len == 0:
match_index += 1
submatch_len = min(sub_str_boundaries[match_index], j2) - j1
j1 += submatch_len
else:
while j1 < j2:
submatch_len = min(sub_str_boundaries[match_index], j2) - j1
while submatch_len == 0:
match_index += 1
submatch_len = min(sub_str_boundaries[match_index], j2) - j1
matches[match_index] += large_str[i1:i1+submatch_len]
j1 += submatch_len
i1 += submatch_len
print(matches)
输出:
['hello, this is a long string',
', that may be made up of multiple ',
'substrings that approximately ',
'match the original string']
关于python - 我怎样才能找到一个大字符串的最合适的子序列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45990195/
假设我正在使用 segues 转换 View Controller 。我在 View Controller 1 上有一个 textField,在第二个 View Controller 上有一个标签。当
在下面的代码中,当我在表中插入数据时,回滚的目的是什么,如果我想回滚,我不应该插入它,那么使用回滚的合适方法是什么? BEGIN TRANSACTION Insert into dimCustomr
我一直在阅读一些帖子,并想知道是否有人可以介绍 TrieMap 何时比使用 HashMap 更可取的情况。 那么本质上是什么架构决策应该激励使用 TrieMap? 最佳答案 根据文档。 它是可以在多线
什么时候 do-while 比其他类型的循环更好?有哪些常见场景比其他场景更好? 我了解 do-while 的功能,但不了解何时使用它。 最佳答案 当您需要至少完成一次某事,但不知道启动循环之前的次数
fileExistsAtPath 的文档如下: Attempting to predicate behavior based on the current state of the file syst
当 XCode 分析我的代码时,它发现了潜在的内存泄漏。我使用 ARC,但我了解到 ARC 不处理 C 类型。因为我使用 CGImageRef 来创建 UIImage 并分配给 UIImageView
我有一个每天更新一次的大型数据集。我正在缓存对该数据进行昂贵查询的结果,但我想每天更新该缓存。我正在考虑使用 CacheItemRemovedCallback 每天重新加载我的缓存,但我有以下问题:
我了解 IoC 容器是什么,并且一直在阅读结构图。该技术似乎很容易使用。我的问题是,使用 IoC 容器的适当粒度级别是多少? 我看到以下可能的 IoC 应用级别: 打破所有对象之间的所有依赖关系——当
我用 Java 编写了一个应用程序。我从数据库中获取一个表(客户端),其中包含以下字段: 名称 |姓氏 |地址 在我的应用中存储这些数据的最佳解决方案是什么?我应该为每个客户端创建一个对象并将这些对象
这个问题在这里已经有了答案: Use of 'prototype' vs. 'this' in JavaScript? (16 个答案) 关闭 8 年前。 function A() { this
我已经试验了一段时间 asyncio 并阅读了 PEPs ;一些教程;甚至是 O'Reilly book 。 我想我已经掌握了窍门,但我仍然对 loop.close() 的行为感到困惑,我不太清楚何时
它是否正确,因为在 Windows 中并没有说它不好或不推荐。 例如像这样: int APIENTRY _tWinMain(HINSTANCE hInstance,
我在更新我的网站时遇到问题,谷歌搜索结果显示指向旧页面的链接,这些链接现在是 404,其中一些甚至包含已弃用的内容。 我的问题是关于 301 的使用。旧页面具有深层嵌套页面,如下例所示: ww
我使用 JUnit 和 FEST 对我们的应用程序进行 Swing 集成测试,我在测试用例中多次启动和停止。 @after 是否应该包含对 robot.cleanUp() 的调用? 最佳答案 一般规则
我是一名从未真正使用过 .dll 文件的程序员。当然,当我需要第 3 方软件时,例如图形库、帮助我创建图形的库等。我会将引用/ddl 文件添加到我的程序中并在我的代码中使用它们。 此外,您似乎可以将
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a softwar
我目前正在尝试更多地利用 kotlin 协程。但我面临一个问题:在这些协程中使用 moshi 或 okhttp 时,我收到警告: “不适当的阻塞方法调用” 解决这些问题的最佳方法是什么?我真的不想不合
我有点不确定什么时候适合使用 Html.RenderAction() 来渲染我的 View ,什么时候不适合。我的理解是,因为它不是 ASP.NET MVC 的“官方”组件,所以使用它是不好的做法,它
假设你想开发你的 Controller ,以便你使用 ViewModel 来包含你渲染的 View 的数据,所有数据都应该包含在 ViewModel 中吗?什么条件下可以绕过 ViewModel? 我
您何时考虑在 .NET 中创建用户控件?您是否有一些基本标准来从页面中排除您的代码并引入新的用户控件? 通常我倾向于遵循这些来决定我是否需要用户控件: 当使用单独的用户控件使页面看起来更具可读性时 当
我是一名优秀的程序员,十分优秀!