python - 寻找两个字符串之间最长的完美匹配-6ren

python - 寻找两个字符串之间最长的完美匹配

转载作者：太空狗更新时间：2023-10-29 21:27:59

26

4

我正在尝试编写一个脚本，当提供两个字符串时，该脚本将执行两个功能:

1。从pos[0]开始，找出两个字符串中相同的最长字符序列

Seq1 = 'ATCCTTAGC'
Seq2 = 'ATCCAGCAATTC'
        ^^^^ Match from pos[0] to pos[3]
Pos: 0:3
Length: 4
Seq: ATCC

2。找出同时存在于两个字符串中的最长字符串

Seq1 = 'TAGCTCCTTAGC' # Contains 'TCCTT'
Seq2 = 'GCAGCCATCCTTA' # Contains 'TCCTT'
        ^ No match at pos[0]
Pos1: 4:8
Pos2  7:11
Length: 5
Seq: TCCTT

为了完成问题 1，我有以下内容:

#!/usr/bin/python

upstream_seq = 'ATACATTGGCCTTGGCTTAGACTTAGATCTAGACCTGAAAATAACCTGCCGAAAAGACCCGCCCGACTGTTAATACTTTACGCGAGGCTCACCTTTTTGTTGTGCTCCC'
downstream_seq = 'ATACACGAAAAGCGTTCTTTTTTTGCCACTTTTTTTTTATGTTTCAAAACGGAAAATGTCGCCGTCGTCGGGAGAGTGCCTCCTCTTAGTTTATCAAATAAAGCTTTCG'

print("Upstream:   %s\nDownstream: %s\n") % (upstream_seq, downstream_seq)

mh = 0
pos_count = 0
seq = ""
position =""
longest_hom=""
for i in range(len(upstream_seq)):
    pos_count += 1
    if upstream_seq[i] == downstream_seq[i]:
        mh += 1
        seq += upstream_seq[i]
        position = pos_count
        longest_hom = mh

    else:
        mh = 0
        break

print("Pos: 0:%s\nLength: %s\nSeq: %s\n") % (position , longest_hom, seq)

Upstream:   ATACATTGGCCTTGGCTTAGACTTAGATCTAGACCTGAAAATAACCTGCCGAAAAGACCCGCCCGACTGTTAATACTTTACGCGAGGCTCACCTTTTTGTTGTGCTCCC
Downstream: ATACACGAAAAGCGTTCTTTTTTTGCCACTTTTTTTTTATGTTTCAAAACGGAAAATGTCGCCGTCGTCGGGAGAGTGCCTCCTCTTAGTTTATCAAATAAAGCTTTCG

Pos: 0:5
Length: 5
Seq: ATACA

我遇到问题 2。到目前为止，我已经考虑过使用 BioPython's pairwise2 在两个序列之间进行比对。 .然而，在这种情况下，我只想要完美匹配(没有间隙，没有扩展)，我只想看到最长的序列，而不是我似乎得到的共识:

from Bio import pairwise2 as pw2

global_align = pw2.align.globalms(upstream_seq, downstream_seq, 3, -1, -.5, -.5)

print(global_align[0])

('ATACATT-G----GCC-TTGGCTTA-----G--ACTTAGATCTAG-----ACCTGAA----AATAACCTGCCGAAAA-GACC-CGCCCGACTGTTAATACTT-TACGCG-AG-GCT-CAC-C-T-TT--TTGT-TG----T---GCTCC--C-', 'ATACA--CGAAAAG-CGTT--CTT-TTTTTGCCACTT---T-T--TTTTTA--TG--TTTCAA-AA-C-G--GAAAATG---TCG--C--C-G----T-C--GT-CG-GGAGAG-TGC-CTCCTCTTAGTT-TAT-CAAATAAAGCT--TTCG', 151.0, 0, 153)

问题:如何找到同时存在于两个字符串中的最长字符？

最佳答案

这是问题 1 的较短代码:

upstream_seq = 'ATACATTGGCCTTGGCTTAGACTTAGATCTAGACCTGAAAATAACCTGCCGAAAAGACCCGCCCGACTGTTAATACTTTACGCGAGGCTCACCTTTTTGTTGTGCTCCC'
downstream_seq = 'ATACACGAAAAGCGTTCTTTTTTTGCCACTTTTTTTTTATGTTTCAAAACGGAAAATGTCGCCGTCGTCGGGAGAGTGCCTCCTCTTAGTTTATCAAATAAAGCTTTCG'

common_prefix = ''

for x,y in zip(upstream_seq, downstream_seq):
    if x == y:
        common_prefix += x
    else:
        break
print(common_prefix)
# ATACA

问题 2 的简单方法是简单地为每个字符串生成一组每个子字符串，计算它们的交集并按长度排序:

upstream_seq = 'ATACATTGGCCTTGGCTTAGACTTAGATCTAGACCTGAAAATAACCTGCCGAAAAGACCCGCCCGACTGTTAATACTTTACGCGAGGCTCACCTTTTTGTTGTGCTCCC'
downstream_seq = 'ATACACGAAAAGCGTTCTTTTTTTGCCACTTTTTTTTTATGTTTCAAAACGGAAAATGTCGCCGTCGTCGGGAGAGTGCCTCCTCTTAGTTTATCAAATAAAGCTTTCG'

def all_substrings(string):
    n = len(string)
    return {string[i:j+1] for i in range(n) for j in range(i,n)}

print(all_substrings('ABCA'))
# {'CA', 'BC', 'ABC', 'C', 'BCA', 'AB', 'A', 'B', 'ABCA'}
print(all_substrings(upstream_seq) & all_substrings(downstream_seq))
# {'AAAG', 'CA', 'A', 'AAC', 'TGTT', 'ACT', 'CTTAG', 'GCT', 'ATAC', 'AAAA', 'TTTA', 'AAT', 'GTGC', 'CTT', 'AAAAG', 'TTTG', 'CGAA', 'AA', 'CGAAAAG', 'GCC', 'ACA', 'TGCC', 'AAATAA', 'CTCC', 'TTTTT', 'CGCC', 'CAC', 'GAG', 'CTC', 'CGAAAA', 'ATC', 'TCA', 'GA', 'CGC', 'TGT', 'GT', 'GC', 'GAAA', 'ACTTT', 'AAG', 'TTTT', 'CT', 'AATA', 'TCC', 'CGAAA', 'GAA', 'GAAAAG', 'GTT', 'AG', 'TC', 'AAAAT', 'CC', 'TTT', 'AATAA', 'CTTTT', 'ACTT', 'TTA', 'CTTT', 'GCTT', 'GCCG', 'GTG', 'TACA', 'TT', 'GCG', 'TTTTTG', 'TAG', 'TTG', 'TTAG', 'AAATA', 'CTTTTT', 'AAAT', 'TAA', 'ACG', 'TG', 'GCCT', 'G', 'TAC', 'CCT', 'TCT', 'ATA', 'CTTA', 'CCG', 'CG', 'ATAA', 'GG', 'ATACA', 'AGA', 'TGC', 'C', 'T', 'AT', 'GAAAA', 'CGA', 'GAAAAT', 'TA', 'AC', 'AAA', 'TTTTG'}
print(max(all_substrings(upstream_seq) & all_substrings(downstream_seq), key=len))
# CGAAAAG

如果你想要一个更有效的方法，你应该使用 suffix tree .

如果你不想重新发明轮子，你可以简单地使用 difflib.SequenceMatcher.find_longest_match

关于python - 寻找两个字符串之间最长的完美匹配，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46846177/

26

4

0

文章推荐： python - 如何模拟在不同模块的导入方法中导入的函数

文章推荐： c++ - 如何在 C++ 代码中暂时保持高分辨率精度

文章推荐： c# - 存储库模式和本地化查找表

文章推荐： python - jupyterlab - 更改样式 - 字体、字体大小

c - 完美/理想的哈希来隔离字谜
为了加速测试字谜字符串的快速输出行为，我 came up with基于质数的哈希方案——尽管它看起来像 I wasn't the first . 基本思想是将字母映射到素数，并计算这些素数的乘积。字母
swift - swift服务器中的同步或异步(完美)
我使用 Perfect Framework 创建了一个 Swift 3.0 服务器。一切都按预期进行得很好，但我正在尝试了解是否有更好的方法来做一些事情。来自 iOS 背景，我知道总是在不同的线程中
css - *完美*垂直图像对齐
我有一个固定大小的正方形 div，希望使用 CSS 在其中放置任意大小的图像，以便它在水平和垂直方向上都居中。横向很容易: .container { text-align: center } 对于垂直
十分钟配置“完美”终端
程序员离不开终端，配置一个好看又好用的终端，可以提高工作效率. 本篇文章记录了使用 Oh My Zsh + PowerLevel9k + zsh插件快速配置Ubuntu下默认终端的过程. 我们在
swift - 完美，快速，从处理程序中的请求获取服务器地址
在请求处理程序中，处理例如获取 https://example.com/collections/1或 POSThttp://0.0.0.0:8080/collections 如何获取服务器地址 htt
swift - 完美+SQLiteStORM，如何多次插入
我正在使用 perfect 和 SQLite司机和StORM作为连接器。我可以一一保存(创建)多行。为了使其更快，我想一次创建多行，我该怎么做？最佳答案从完美的 SQLite-StORM 和 Pe
vb.net - 在表单上居中(完美)动态创建的按钮？
这是我在这里的第一篇文章，所以我希望我提供所有正确的信息。我目前正在开发一个简单的菜单应用程序，它有一个按钮控制数组(使用 MSDN 建议的控制数组的变通方法)，我很难重新调整表单大小和将按钮居中。
Androidplot:将填充/边距设置为(完美)容纳轴标签
在 androidplot XYPlot 中，如果您有较大的值(许多数字)和/或较大的字体大小，则 Y 轴上的刻度标签会被剪裁。这个(以及 X 轴上的类似问题)之前已经在这些问题中讨论过: Range
c - 如何使用平方根优化c中的循环(完美、丰富、不足)
注意:我遗漏了不相关的代码所以我目前正在研究 CCC 1996 P1，这个问题的全部目的是能够计算一个整数输入是完美数、不足数还是充数。我上面列出的代码可以工作，但是我认为它太慢了。该代码会迭代每个
algorithm - 31 位双射(完美)哈希算法
我需要什么我需要一个产生双射输出的算法。我有一个 31 位输入，需要一个伪随机 31 位输出。我考虑过的 CRC 在其位宽内是双射的。我查看了 Google 并找到了多项式，但找不到表格或算法。
swift - 完美 swift : Can't compile PerfectCrypto
我在 Ubuntu 14.04.1、clang-3.8 上使用 PerfectSwift我使用的是 Perfect，一切正常，但现在，我不能再编译了(但它可以在我的 mac 上编译) 错误日志是 /h
C#中efcore-ShardingCore呈现“完美”分表
如果您对分表有以下痛点那么不妨试试我这边开源的框架sharding-core ，是否需要无感知使用分表组件，是否需要支持abp，是否需要支持自定义分表规则，是否需要支持自定义分表键，是否需要支持特定
probability - 完美 32 位 crc 的预期冲突
我正在尝试确定我的 crc 与“ 理想 ”32 位 crc 的比较。因此，我运行我的 crc 超过 100 万个完全随机的数据样本并收集了碰撞数量，我想将此数字与我可以从“ 理想 ”crc 中预期的
javascript - 完美 URL 检查 MOST URL 的正则表达式
我正在开发一个项目，需要验证我的 URL，并偶然发现了以下正则表达式模式； /(((http|ftp|https):\/{2})+(([0-9a-z_-]+\.)+(aero|asia|biz|cat
python - 一个*完美*的 Python 调试器应该具备哪些特性？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
css - 屏幕分辨率。全屏 - 完美。普通屏幕 - 不完美
我正在创建一个需要居中于中间的圆形网站。背景由围绕中心图像的圆圈组成。每当我以全屏(F11 快捷键)查看我的网站时，无论我的屏幕分辨率如何，它都完美居中。如果我在没有全屏显示的情况下查看我的网站，我
html - 在开发人员工具中测试响应能力时，网站 react 完美，但不是以实际手机屏幕为中心？
所以我有一个网站，在开发人员工具中测试响应能力时看起来很棒，但在 iPhone 本身上实际测试时却没有居中并且看起来有些破烂。什么会导致这种情况，如果我无法使用 iPhone(在我的 android
java - 导入 -> 'cannot find symbol' |完全合格的名称 -> 完美
我有一个内部类，它扩展了 AbstractTableModel。 import javax.swing.table.AbstractTableModel; public class MyClass e
linux - 完美/快速编译在 OSX 中工作，在 Linux 中失败
所以我正在使用 Perfect 服务器开发一个将值返回给客户端的应用程序。目前，它需要从另一个 API 下载一些数据，对其进行处理，然后将其发送给客户端。然而，出于某种原因，它在 OSX 中编译良好
jquery - CSS 按钮在 Firefox 中工作(接近)完美，在 IE 和 Chrome 中崩溃和燃烧
我有一些 CSS 按钮。 “按钮”效果是通过在 anchor 标记中使用固定大小的元素来完成的，并且 css 规则以 a span:active 、 a span:hover 的形式显示按钮状态。

首页

博学

6Ren·AI

商城

python - 寻找两个字符串之间最长的完美匹配