- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个集合 S
,通常包含 10-50 个长字符串。出于说明目的,假设每个字符串的长度在 1000 到 10000 个字符之间。
我想找到指定长度 k
(通常在 5 到 20 的范围内)的字符串,它们是 S
中每个字符串的子字符串。这显然可以使用一种简单的方法来完成 - 枚举 S[0]
中的每个 k 长度子字符串并检查它们是否存在于 S
的每个其他元素中。
有没有更有效的方法来解决这个问题?据我所知,这与最长公共(public)子序列问题有一些相似之处,但我对 LCS 的理解是有限的,我不确定它如何适应我们将所需公共(public)子串长度绑定(bind)到的情况k
,或者子序列技术是否可以应用于查找子串。
最佳答案
这是一个相当简单的算法,应该相当快。
使用 rolling hash如 Rabin-Karp string search algorithm , 构造哈希表 H<sub>0</sub>
所有的 |S<sub>0</sub>|-k+1
长度 k
S<sub>0</sub>
的子串.这大约是 O(|S<sub>0</sub>|)
因为每个散列都是根据前一个散列在 O(1) 中计算的,但是如果存在冲突或重复子字符串,则需要更长的时间。使用更好的散列将帮助您解决冲突,但如果有很多 k
-S<sub>0</sub>
中的长度重复子串那么你最终可能会使用 O(k|S<sub>0</sub>|)
.
现在在 S<sub>1</sub>
上使用相同的滚动哈希.这一次,查找 H<sub>0</sub>
中的每个子串如果找到它,请将其从 H<sub>0</sub>
中删除并将其插入新表 H<sub>1</sub>
.同样,这应该在 O(|S<sub>1</sub>|)
左右。除非你有一些病理情况,就像S<sub>0</sub>
和 S<sub>1</sub>
只是同一字符的长重复。 (如果 S<sub>0</sub>
和 S<sub>0</sub>
是相同的字符串,或者有很多重叠部分,它也将是次优的。)
对每个 S<sub>i</sub>
重复第 2 步,每次创建一个新的哈希表。 (在步骤 2 的每次迭代结束时,您可以删除上一步的哈希表。)
最后,最后一个哈希表将包含所有常见的k
-length 子字符串。
总运行时间应该约为 O(Σ|S<sub>i</sub>|)
但在最坏的情况下可能是O(kΣ|S<sub>i</sub>|)
.即便如此,根据描述的问题大小,它应该在可接受的时间内运行。
关于string - 如何高效地在字符串集合中找到指定长度的相同子串?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52509368/
我正在我的 java 作业中使用 GUI,并且我必须指定 JCheckBox 中的其他内容。除了这个小要求,其他的我都完成了。我不太确定如何解决这个问题,我查阅了我的书并尝试在线研究 要求: 一系列复
在各种语言中(我将在这里使用 JavaScript,但我已经在 PHP 和 C++ 中以及可能在其他地方看到过它),似乎有几种构造简单 for 循环的方法。版本 1 如下: var top = doc
有没有一种方法可以使用 CSS 指定每次“小于符号”(在键盘上 M 的右侧)或“大于符号”出现在文本中时,它应该被替换为分别是“小于”或“大于”的实际词? 最佳答案 CSS 不能作用于(不能修改,即)
首先,使用 setspn 命令为用户注册服务主体名称。 setspn -a CS/dummy@abc.com dummyuser setspn -l dummyuser 给出输出为 CS/dummy@
我在指定从 SFSafariViewController 访问时遇到问题,因为它具有与 Safari 浏览器完全相同的用户代理。 我要做的是仅在 webview 内显示图片,如果在普通浏览器上查看,则
我正在尝试用 R 语言在 lavaan 中指定一个奇怪的模型。该模型如下所示: 我的规范尝试如下所示。我发现难以实现的是将观察到的变量的唯一误差固定为唯一项的两个相关性的总和。 例如,项目 y*1,2
我正在构建 API 以将我的 React 应用程序与我的后端服务连接起来,我想使用 typescript 来指定 data 的类型在我的 Axios 请求中。如何在不修改其他字段的情况下更新 Axio
如何为模型指定初始“软”值?该初始模型是解决类似查询的结果,并且该模型很可能具有正确的部分,甚至对于当前查询可能是正确的。 目前,我正在通过增量求解和 hard/soft constraints 对此
我有来自网页的以下代码 https://cwiki.apache.org/confluence/display/KAFKA/0.8.0+Producer+Example 似乎缺少的是如何配置分区数。我
有没有办法在每个查询的基础上在 Neo4jClient 中指定 Cypher 解析器的版本,如 here 所述? 谢谢! 最佳答案 如果您将 Neo4jClient 更新到最新版本(> 1.0.0.6
我有以下代码生成四个图,但它们最终被压扁(见下图)。我该如何解决这个问题? par(mfrow=c(2,2)) curve(.5*exp(-.5*x),from=0,to=10,main="f(x)"
我有一个 ColdFusion 10 服务器。我正在使用 JDBC 驱动程序连接到 db2 数据库。我偶然发现了这个笔记。这个设置在哪里?我还查看了 neo*.xml 文件,但没有看到任何 db 驱动
我想知道是否可以指定验证器的运行顺序。 目前,我编写了一个自定义验证器,检查它是否为 [a-zA-Z0-9]+ 以确保登录验证我们的规则,并编写了一个远程验证器以确保登录可用,但目前远程验证器已启动在
我的应用程序需要至少 40MB 的 RAM,因此早期的 iPhone(例如 3G、第一个 iPod touch 版本)就没有它(它们为我的应用程序提供的最大内存约为 20MB)。有没有正确的方法来禁用
我有一个保存日期(不是当前日期)的 Date 对象,我需要以某种方式指定该日期为 UTC,然后将其转换为“欧洲/巴黎”,即 +1 小时。 public static LocalDateTime toL
我想问你在 Varnish 代码中如何在没有缓存的情况下将请求传递到后端。 我知道我可以做到并且正在发挥作用: if (req.url ~ "(\?|&)(something|somethin
我目前基于模块编译程序(如主程序 foo 依赖于模块 bar )如下: gfortran -c bar.f90 gfortran -o foo.exe foo.f90 bar.o 这在 foo.f90
我正在尝试创建一个依赖于另一个 meteor 包的新 meteor 包。当我尝试 meteor add mypackage 时,出现以下错误。为什么 Meteor 不添加 mypackage 并引入它
我正在制作执行器/ react 器,同时发现这是一个终生的问题。它与 async/Future 无关,可以在没有 async 糖的情况下进行复制。 use std::future::Future; s
我在 cassandra 中有一个表,其数据类型为时间戳。我正在使用 cqlsh 从数据库中获取数据,并希望更改我的时间戳列输出的输出格式。我研究了一下,发现我可以通过更改以下文件来更改时间戳输出格式
我是一名优秀的程序员,十分优秀!