python - 相互包含的高效字符串-6ren

python - 相互包含的高效字符串

转载作者：太空狗更新时间：2023-10-29 17:26:44

25

4

我有两组字符串(A 和B)，我想知道所有字符串对 a in A 和 b in B 其中 a 是 b 的子字符串。

编码的第一步如下:

for a in A:
    for b in B:
        if a in b:
            print (a,b)

但是，我想知道——是否有更有效的方法来使用正则表达式执行此操作(例如，不是检查 if a in b:，而是检查正则表达式 '. *' + a + '.*': 匹配 'b'。我想也许使用这样的东西可以让我缓存所有 a 的 Knuth-Morris-Pratt 失败函数。另外，对内部 for b in B: 循环使用列表理解可能会带来相当大的加速(并且嵌套列表理解可能会更好)。

我对算法的渐近运行时的巨大飞跃不太感兴趣(例如，使用后缀树或任何其他复杂而巧妙的东西)。我更关心常量(我只需要对几对 A 和 B 集执行此操作，我不希望它运行一整周) .

您是否知道任何技巧或有任何通用建议可以更快地完成此操作？非常感谢您分享任何见解!

编辑:

根据@ninjagecko 和@Sven Marnach 的建议，我构建了一个 10-mers 的快速前缀表:

    import collections
    prefix_table = collections.defaultdict(set)
    for k, b in enumerate(B):
        for i in xrange(len(prot_seq)-10):
            j = i+10+1
            prefix_table[b[i:j]].add(k)

    for a in A:
        if len(a) >= 10:
            for k in prefix_table[a[:10]]:
                # check if a is in b
                # (missing_edges is necessary, but not sufficient)
                if a in B[k]:
                    print (a,b)
        else:
            for k in xrange(len(prots_and_seqs)):
                # a is too small to use the table; check if
                # a is in any b
                if a in B[k]:
                    print (a, b)

最佳答案

当然你可以很容易地把它写成一个列表理解:

[(a, b) for a in A for b in B if a in b]

这可能会稍微加快循环速度，但不要期望太多。我怀疑使用正则表达式对此有任何帮助。

编辑:以下是一些时间安排:

import itertools
import timeit
import re
import collections

with open("/usr/share/dict/british-english") as f:
    A = [s.strip() for s in itertools.islice(f, 28000, 30000)]
    B = [s.strip() for s in itertools.islice(f, 23000, 25000)]

def f():
    result = []
    for a in A:
        for b in B:
            if a in b:
                result.append((a, b))
    return result

def g():
    return [(a, b) for a in A for b in B if a in b]

def h():
    res = [re.compile(re.escape(a)) for a in A]
    return [(a, b) for a in res for b in B if a.search(b)]

def ninjagecko():
    d = collections.defaultdict(set)
    for k, b in enumerate(B):
        for i, j in itertools.combinations(range(len(b) + 1), 2):
            d[b[i:j]].add(k)
    return [(a, B[k]) for a in A for k in d[a]]

print "Nested loop", timeit.repeat(f, number=1)
print "List comprehension", timeit.repeat(g, number=1)
print "Regular expressions", timeit.repeat(h, number=1)
print "ninjagecko", timeit.repeat(ninjagecko, number=1)

结果:

Nested loop [0.3641810417175293, 0.36279606819152832, 0.36295199394226074]
List comprehension [0.362030029296875, 0.36148500442504883, 0.36158299446105957]
Regular expressions [1.6498990058898926, 1.6494300365447998, 1.6480278968811035]
ninjagecko [0.06402897834777832, 0.063711881637573242, 0.06389307975769043]

编辑 2:添加了 alogrithm suggested by ninjagecko 的变体到时间。您可以看到它比所有的蛮力方法都要好得多。

编辑 3:使用集合而不是列表来消除重复项。 (我没有更新时间——它们基本上保持不变。)

关于python - 相互包含的高效字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8288960/

25

4

0

文章推荐： python - 在存储的数据上重播 Scrapy 蜘蛛

文章推荐： angular - 三级路由

文章推荐： c - 三态 boolean

C++ 相互 header 包含和前向声明
这个问题已经有答案了: Resolve build errors due to circular dependency amongst classes (12 个回答) 已关闭 3 个月前。如何允许
java - 多个组件 "linked"相互
让 2 个 Swing 部件做同样的工作是很常见的。例如，我们可以在工具栏中使用一个 button 作为“保存”按钮，而 JMenuItem (文件保存...)也可以做同样的事情。我的问题是: 有没
Android 相互 fragment 化
我使用 fragment 已经有一段时间了，但我经常遇到一个让我烦恼的问题。 fragment 有时会相互吸引。现在，我设法为此隔离了一个用例，它是这样的: Add fragment A(也使用 ad
WCF 相互 SSL 安全什么时候使用什么证书？
我正在使用具有相互 SSL 安全性的 WCF 服务，我想检查一下我对何时使用什么证书的理解。这是正确的吗？客户端将客户端公共(public)证书交给服务器服务器将服务器公共(public)证书交
security - 相互 SSL - 多少身份验证就足够了？
假设您有一个相互 SSL 服务，除了 SSL 之外，它还有应用程序身份验证。因此，客户端提供证书(以及服务器)，但客户端请求(例如 REST 请求)还包含后端应用程序服务器用于验证的用户名/密码。就
多个设备上的 Android UiAutomator，相互 react
有人让 Android uiautomator 可以同时在多个设备上运行，但做不同的事情吗？我的意思是，我希望我的测试同时启动设备和应用程序，然后设备 A 执行设备 B 必须使用react的操作。这
python - 相互 TLS 身份验证 - SSLV3_ALERT_UNSUPPORTED_CERTIFICATE
我目前正在尝试在客户端和服务器之间实现双向 TLS 身份验证。我遇到了一个 SSL 错误，它的描述性不强。 StackOverflow 也没有太多与之相关的问题，因为大多数时候它是互联网上的单向 TL
javascript - 多个 slider 相互 react
这里是新手。我正在做我的第一个元素，我想为不同的人(普通人、 worker 、农民等)提供 slider ，但我不知道如何放置多个 slider 以及如何让它们全部工作。我从 W3schools 获取
jquery - 如何阻止我的内部 div 相互 float
我创建了一张翻转卡片，但卡片内的所有 div 似乎都浮在彼此之上。我希望 div 彼此相邻。我看了很多问题，但似乎找不到答案。我尝试了多种显示:内联；职位:相对；向左飘浮;清除:两者；但我似乎无法让
jquery - 使多个 div 相互 float
我正在使用此控件来安排时间。我有一个单选按钮列表，然后是多个内容 Pane 。根据内容，我想在正确的控件中淡入淡出。但出于某种原因，在 div 上放置一个 float 并设置 z-index 并不能使
ssl - Wireshark 解密 SSL 相互
有什么方法可以解密双向 SSL(客户端和服务器，两种方式)？我找到了这个链接:https://www.wireshark.org/lists/wireshark-users/201001/msg00
security - 相互 SSL 与基于 token 的身份验证
我正在开发一个 Web 应用程序，安全性是我们在此应用程序中的主要关注点之一。我正在查看不同的 API 安全方法(在 OWASP 中提到)，无法理解相互 SSL 身份验证和基于 token 的身份验证
Kubernetes pod 无法使用 ClusterIP 相互 ping 通
我正在尝试使用分配给 kube-dns 服务的集群 IP 从 dnstools pod ping kube-dns 服务。 ping 请求超时。在同一个 dnstools pod 中，我尝试使用暴露的
c# - .NET 相互 SSL 握手 'Client Authentication'
过去几天我一直在研究这个问题，但我一无所获。场景是: 现场的 iOS 应用程序将调用我的 REST 服务 (.NET)。我的 REST 服务将使用相互 SSL 握手调用 Apache Web 服务。
java - 多个 JSlider 相互 react 始终等于 100%
我正在尝试向 java swing 应用程序添加 3 个 JSlider，以便三个 slider 的总值(value)总和为 100。每个 slider 都是一个概率， slider A 是将值添加到
java - 相互 SSL - 使用 java 作为客户端时，客户端证书链为空
我们正在使用 java 客户端(openJDK 1.8.0) 调用需要相互身份验证的 api。为此，我们使用 Java 标准 JKS 文件作为 keystore 和信任库(包含信任证书和身份证书/私钥
java - 相互 SSL : unsupported_certificate and client certificate format
有人告诉我使用双向身份验证连接到客户的服务器。服务器身份验证工作顺利，但我们在获取客户端身份验证方面遇到了巨大的麻烦。让我试着解释一下我们的麻烦。前段时间我公司在 GeoTrust 购买了一个证书，
authentication - Paw - 支持 https 相互(客户端证书)身份验证？
正在试用 PAW 并且非常喜欢它。我唯一无法正常工作的是使用 HTTPS 相互身份验证。我需要与之交互的一些 API 需要相互验证的 https。如何告诉 PAW 使用证书进行身份验证？该证书已经在
spring - cxf 相互 SSL 配置外部化 key 和密码以使用 JNDI
我们有一个在 Jboss EAP 5.1 中部署并使用 Spring 2.5 已经运行了一年多的 CXF webservice 我们现有的客户证书管理策略如下: 对于非 PROD，证书名为“NAME-
c# - 相互 SSL 身份验证 - sslstream 中的本地证书返回 'null' 而不是客户端上的证书
我正在创建一个将调用 API 的 Windows 服务。对于这个过程，我正在尝试建立相互(双向)SSL 身份验证。因为我是新手。我尝试实现一个简单的客户端和服务器项目，它们将相互进行身份验证。我已经

首页

博学

6Ren·AI

商城

python - 相互包含的高效字符串