python - 改进DNA比对去间隙的代码设计-6ren

python - 改进DNA比对去间隙的代码设计

转载作者：太空狗更新时间：2023-10-29 21:54:44

24

4

这是一个关于更高效的代码设计的问题:

假设三个对齐的 DNA 序列(seq1、seq2 和 seq3；它们都是字符串)代表两个基因(gene1 和 gene2)。相对于比对的 DNA 序列，这些基因的起始和终止位置是已知的。

# Input
align = {"seq1":"ATGCATGC", # In seq1, gene1 and gene2 are of equal length
         "seq2":"AT----GC",
         "seq3":"A--CA--C"}
annos = {"seq1":{"gene1":[0,3], "gene2":[4,7]},
         "seq2":{"gene1":[0,3], "gene2":[4,7]},
         "seq3":{"gene1":[0,3], "gene2":[4,7]}}

我希望从比对中移除间隙(即破折号)并保持基因起始和终止位置的相对关联。

# Desired output
align = {"seq1":"ATGCATGC", 
         "seq2":"ATGC",
         "seq3":"ACAC"}
annos = {"seq1":{"gene1":[0,3], "gene2":[4,7]},
         "seq2":{"gene1":[0,1], "gene2":[2,3]},
         "seq3":{"gene1":[0,1], "gene2":[2,3]}}

获得所需的输出并不像看起来那么简单。下面我为这个问题写了一些(行号)伪代码，但肯定有更优雅的设计。

1  measure length of any aligned gene  # take any seq, since all seqs aligned
2  list_lengths = list of gene lengths  # order is important
3  for seq in alignment
4      outseq = ""
5      for each num in range(0, length(seq))  # weird for-loop is intentional
6          if seq[num] == "-"
7              current_gene = gene whose start/stop positions include num
8              subtract 1 from length of current_gene
9              subtract 1 from lengths of all genes following current_gene in list_lengths
10         else
11             append seq[num] to outseq
12     append outseq to new variable
13     convert gene lengths into start/stop positions and append ordered to new variable

谁能给我一些更短、更直接的代码设计的建议/示例？

最佳答案

这个答案处理从评论到 cdlanes 答案的更新的 annos 字典。该答案使 annos 字典中的 seq2 gene2 索引不正确 [2,1]。如果序列包含该区域中的所有缺口，我提出的解决方案将从字典中删除 gene 条目。还要注意，如果一个基因在最后的 align 中只包含一个字母，那么 anno[geneX] 将具有相同的开始和停止索引 --> 请参见 seq3 gene1 来自您评论的 annos。

align = {"seq1":"ATGCATGC",
         "seq2":"AT----GC",
         "seq3":"A--CA--C"}

annos = {"seq1":{"gene1":[0,3], "gene2":[4,7]},
         "seq2":{"gene1":[0,3], "gene2":[4,7]},
         "seq3":{"gene1":[0,3], "gene2":[4,7]}}


annos3 = {"seq1":{"gene1":[0,2], "gene2":[3,4], "gene3":[5,7]}, 
          "seq2":{"gene1":[0,2], "gene2":[3,4], "gene3":[5,7]}, 
          "seq3":{"gene1":[0,2], "gene2":[3,4], "gene3":[5,7]}}

import re
for name,anno in annos.items():
    # indices of gaps removed usinig re
    removed = [(m.start(0)) for m in re.finditer(r'-', align[name])]

    # removes gaps from align dictionary
    align[name] = re.sub(r'-', '', align[name])

    build_dna = ''
    for gene,inds in anno.items():

        start_ind = len(build_dna)+1

        #generator to sum the num '-' removed from gene
        num_gaps = sum(1 for i in removed if i >= inds[0] and i <= inds[1])

        # build the de-gapped string
        build_dna+= align[name][inds[0]:inds[1]+1].replace("-", "")

        end_ind = len(build_dna)

        if num_gaps == len(align[name][inds[0]:inds[1]+1]): #gene is all gaps
            del annos[name][gene] #remove the gene entry
            continue
        #update the values in the annos dictionary
        annos[name][gene][0] = start_ind-1
        annos[name][gene][1] = end_ind-1

结果:

In [3]: annos
Out[3]:  {'seq1': {'gene1': [0, 3], 'gene2': [4, 7]},
          'seq2': {'gene1': [0, 1], 'gene2': [2, 3]},
          'seq3': {'gene1': [0, 1], 'gene2': [2, 3]}}

上述 3 个基因 annos 的结果。只需替换 annos 变量:

In [5]: annos3
Out[5]:  {'seq1': {'gene1': [0, 2], 'gene2': [3, 4], 'gene3': [5, 7]},
          'seq2': {'gene1': [0, 1], 'gene3': [2, 3]},
          'seq3': {'gene1': [0, 0], 'gene2': [1, 2], 'gene3': [3, 3]}}

关于python - 改进DNA比对去间隙的代码设计，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34816513/

24

4

0

文章推荐： python - 在 Python 中传递参数化函数句柄

文章推荐： c# - 从 Umbraco 中的成员获取属性(在用户控件中)

文章推荐： c# - 工厂方法和泛型

拆分音频后级联音频中的 FFmpeg 间隙
不确定是间隙还是音频样本未对齐，但是当我将音频文件一分为二时，如下所示: ffmpeg -ss 0 -t 00:00:15.00 -i song.mp3 seg1.mp3 和 ffmpeg -ss 0
cocoa - NSDrawNinePartImage 间隙
我正在使用 NSDrawNinePartImage 绘制自定义按钮/文本字段。我在代码中将图像分割成九个部分，并使用 NSDrawNinePartImage 将其绘制到一个矩形中。不幸的是，我在绘图
android - ProgressBar 间隙
Check this image for the progressbar 知道如何消除 ProgressBar 下的那个小间隙吗？我怎样才能做到没有差距？应该通过 MainActivity 中的 ja
html - 整个网页左侧不需要的边距/间隙
刚开始制作网站时，整个左侧都有几个像素的边距，但我不明白为什么。 http://jsbin.com/elufob/1/ 任何建议将不胜感激 CSS html{ min-width: 1
标题和静态图像之间的 HTML 间隙
我一直在尝试在我的网站上使用静态图像，但页眉和图像之间存在很大差距，我尝试在 Photoshop 和 HTML 中删除填充并更改图像高度。这是我的问题的 fiddle https://jsfiddle
css - 文档顶部的小边距/间隙
我前一段时间遇到过这个问题，忘记了解决方案是什么。我的文档顶部有一个小间隙，大概 5/10 像素？我想你会知道我在说什么，我该如何摆脱它？谢谢最佳答案在您的 CSS 文件中添加: html,
html - 整个网页左侧不需要的边距/间隙
刚开始制作网站时，整个左侧都有几个像素的边距，但我不明白为什么。 http://jsbin.com/elufob/1/ 任何建议将不胜感激 CSS html{ min-width: 1
reactjs - 展开时如何消除 Accordion 间隙？
我正在尝试使用 Accordion MUI 组件在展开模式下不会移动，也不会对某些元素应用顶部和底部边距。示例如下，但它不起作用，我的组件仍然太“跳跃”(扩展时它会增加宽度，并且添加了一些不可见的边
ios - 最后两个单元格之间奇怪的 UITableViewCell 间隙
我有一个自定义 UITableViewCell Card 样式的动态高度，它的空间在应用程序中是恒定的。我正在使用 Storyboard ，并且在 UINavigationBar 下方有 UITool
javascript - 在日期范围数组中查找 'holes'(间隙)
假设您有一组日期范围 var arr = [ { "from": 'unix 1st of august', "until": 'unix 5th of august' },
css - 径向渐变显示一些背线，间隙，空格或边距
我是radial-gradient的新手，我不知道这些多维数据集之间的背线或空格是什么？如何删除它们？ * {margin: 0; outline: 0; border: 0;} .round {
列表前后的 HTML 间隙 (
- css - Chrome 在呈现多个渐变时在中间留下空白/间隙
  我正在阅读 Lea Verou 的《CSS secret 》一书。有一个圆 Angular 径向多重渐变的例子: http://dabblet.com/gist/24484257bc6cf7076a
- html - 修复标题标签前奇怪的 2px 间隙
  我一直在为一个客户做一个元素，一切都很顺利，直到我注意到我的 h1/h2/h3(任何标题标签)已经向右移动了 2/3 像素。他们可能一直都在这样做，但我只是刚刚注意到。当您在 devtools 中突出
- div 内链接之间的 Css 间隙
  这里是 CSS 新手。奇怪的事情发生了，链接之间有间隙，我不知道为什么。我正在使用 html html5 样板 css 进行重置。 HTML代码: Link 1 Link
- html - H1 在标题和页面顶部之间留出空间/间隙
  这个问题在这里已经有了答案: margin on h1 element inside a div (3 个答案) 关闭 6 年前。我有一个问题，我的 h1 标签与我的页面顶部分开 - 像这样:en
- html - 下划线文本 CSS 间隙
  我希望我的文本在事件时带有下划线，但当我这样做时它看起来像这样: 我只希望文本有下划线，如果我使用 text-decoration:underline 它会在单词下划线，但我不知道如何在文本和下划线之
- html - 无法删除表格内两个图像之间的 5px 间隙
  我似乎无法将这两张图片放在一起。它们都在 HTML 表格中自己的行中(我正在制作一封 html 电子邮件)，但我似乎无法删除它们之间的 5px。这是我的代码它也在 jsfi
- Android CardView cardCornerRadius 间隙
  我正在尝试在我的项目中使用新的 CardView UI 小部件，但在某些运行 android 2.3 的设备上，CardView 角之间存在间隙(见下文)。这是在我的 xml 文件中:
- 填充具有公共(public)边框的形状后的Javascript Canvas 间隙
  我想了解并学习当我使用共享边框填充两个形状/路径时遇到的问题的解决方案，即在为所有形状调用填充后，仍然有一个微小的间隙存在于他们之间。该代码片段展示了绘制所涉及的形状/路径的代码: ctx.begi

首页

博学

6Ren·AI

商城

python - 改进DNA比对去间隙的代码设计