python - Rosalind 共识和简介 python-6ren

python - Rosalind 共识和简介 python

转载作者：太空宇宙更新时间：2023-11-03 16:19:50

24

4

我正在 Rosalind Bioinformatics 网站 ( http://rosalind.info/problems/cons/ ) 上研究“Consensus nd Profile”问题。我使用网站上的示例输入尝试了我的代码，并且我的输出与示例输出匹配。但是当我尝试更大的数据集时，网站说我的输出是错误的。有人可以帮我确定我的问题出在哪里吗？谢谢!

示例输入:

>Rosalind_1
ATCCAGCT
>Rosalind_2
GGGCAACT
>Rosalind_3
ATGGATCT
>Rosalind_4
AAGCAACC
>Rosalind_5
TTGGAACT
>Rosalind_6
ATGCCATT
>Rosalind_7
ATGGCACT

我已经提取了 dna 字符串并将它们存储在一个名为 strings 的列表中(我对较大数据集的试验在这一步是正确的，因此我在这里省略了我的代码):

['ATCCAGCT', 'GGGCAACT', 'ATGGATCT', 'AAGCAACC', 'TTGGAACT', 'ATGCCATT', 'ATGGCACT']

之后我的代码:

#convert strings into matrix
matrix = []
for i in strings:
    matrix.append([j for j in i])
M = np.array(matrix).reshape(len(matrix),len(matrix[0]))

示例输入的 M 看起来像这样:

[['A' 'T' 'C' 'C' 'A' 'G' 'C' 'T']
 ['G' 'G' 'G' 'C' 'A' 'A' 'C' 'T']
 ['A' 'T' 'G' 'G' 'A' 'T' 'C' 'T']
 ['A' 'A' 'G' 'C' 'A' 'A' 'C' 'C']
 ['T' 'T' 'G' 'G' 'A' 'A' 'C' 'T']
 ['A' 'T' 'G' 'C' 'C' 'A' 'T' 'T']
 ['A' 'T' 'G' 'G' 'C' 'A' 'C' 'T']]

之后我的代码:

#convert string matrix into profile matrix
A = []
C = []
G = []
T = []
for i in range(len(matrix[0])):
    A_count = 0
    C_count = 0
    G_count = 0
    T_count = 0
    for j in M[:,i]:
        if j == "A":
            A_count += 1
        elif j == "C":
            C_count += 1
        elif j == "G":
            G_count += 1
        elif j == "T":
            T_count += 1
    A.append(A_count)
    C.append(C_count)
    G.append(G_count)
    T.append(T_count)

profile_matrix = {"A": A, "C": C, "G": G, "T": T}
for k, v in profile_matrix.items():
    print k + ":" + " ".join(str(x) for x in v)

#get consensus string
P = []
P.append(A)
P.append(C)
P.append(G)
P.append(T)
profile = np.array(P).reshape(4, len(A))
consensus = []
for i in range(len(A)):
    if max(profile[:,i]) == profile[0,i]:
        consensus.append("A")
    elif max(profile[:,i]) == profile[1,i]:
        consensus.append("C")
    elif max(profile[:,i]) == profile[2,i]:
        consensus.append("G")
    elif max(profile[:,i]) == profile[3,i]:
        consensus.append("T")
print "".join(consensus)

这些代码给出了正确的示例输出:

A:5 1 0 0 5 5 0 0
C:0 0 1 4 2 0 6 1
T:1 5 0 0 0 1 1 6
G:1 1 6 3 0 1 0 0
ATGCAACT

但是当我尝试更大的数据集时，网站说我的答案是错误的......有人能指出我错在哪里吗？ (我是初学者，谢谢您的耐心!)

最佳答案

你的算法完全没问题。正如 @C_Z_ 指出的“确保您的格式与示例输出完全匹配”，不幸的是事实并非如此。

print k + ":" + " ".join(str(x) for x in v)

应该是

print k + ": " + " ".join(str(x) for x in v)

并且出现在共识序列之后，而不是之前。如果您更改顺序并添加空格，您的答案将被 rosalind 接受。

<小时/>

由于这对您的问题来说是一个简单的答案，因此这里有一个不使用 numpy 来解决同一问题的替代解决方案:不要对每个核苷酸使用变量，而是使用字典。用 23 种氨基酸做同样的事情并不有趣，例如

from collections import defaultdict
for i in range(len(strings[0])):
    counter.append(defaultdict(int))
    for seq in seqs:
        counter[i][seq[i]] += 1
    consensus += max(counter[i], key=counter[i].get)

counter 为每个位置存储一个字典，其中包含所有碱基的所有计数。字典的键是当前基数。

关于python - Rosalind 共识和简介 python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38593923/

24

4

0

文章推荐： python - 从字典列表中的字典列表中删除重复项

文章推荐： ruby-on-rails - Rspec - 测试方法在另一个方法中收到调用

文章推荐： python - 导入 matplotlib.pyplot 时的警告消息

『Echarts』简介
目录一、前言二、『Echarts』简介 1. 什么是『Echarts』三、数据可视化四、『Echarts』
Golang学习笔记（一）：简介
Go语言最主要的特性复制代码代码如下: 自动垃圾回收更丰富的内置类型函数多返回值错误处理匿名函数和闭包类型和接口并发编程反射语言交互性
ASP中FSO的神奇功能 - 简介
在ASP中，FSO的意思是File System Object，即文件系统对象。　　我们将要操纵的计算机文件系统，在这里是指位于web服务器之上。所以，确认你对此拥有合适的权限。理
Java 简介
Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计语言和Java平台的总称。由James Gosling和同事们共同研发，并在1995年正式推出。 Ja
C# 简介
C# 是一个现代的、通用的、面向对象的编程语言，它是由微软（Microsoft）开发的，由 Ecma 和 ISO 核准认可的。 C# 是由 Anders Hejlsberg 和他的团队在 .Net
SQL 简介
SQL 是一门 ANSI 的标准计算机语言，用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。SQL 可与数据库程序协同工作，比如 MS Access、DB2、Informix、M
01、Storm 简介
什么是Apache Storm？ Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架，具有最高的摄取率。虽然Storm
02、SQLite 简介
SQLite 简介本教程帮助您了解什么是 SQLite，它与 SQL 之间的不同，为什么需要它，以及它的应用程序数据库处理方式。 SQLite是一个软件库，实现了自给自足的、无服务器的、零配置的
01、Gradle 简介
简介介绍很高兴能向大家介绍 Gradle，这是一个基于 JVM 的富有突破性构建工具。它为您提供了: 一个像 ant 一样，通用的灵活的构建工具一种可切换的，像 maven
1、Hystrix 简介
hystrix介绍 Hystrix 供分布式系统使用，提供延迟和容错功能，隔离远程系统、访问和第三方程序库的访问点，防止级联失败，保证复杂的分布系统在面临不可避免的失败时，仍能有其弹性。 hyst
02、设计模式 – 简介
设计模式（Design pattern）是重构解决方案这点很重要，尤其是现在 B/S 一统天下的局面，过早考虑设计模式，得不偿失设计模式（Design pattern）代表了最佳的实
02、Ruby 简介
Ruby 是一种纯粹的面向对象编程语言。 Ruby 由日本的松本行弘（まつもとゆきひろ/Yukihiro Matsumoto）创建于1993年。 Ruby 是 "程序员的最佳朋友&quo
10、OWL 简介
OWL设计的初衷是处理 web 信息学习 OWL 之前应具备的基础知识 OWL是基于 XML 和 RDF,所以，在我们开始学习 OWL 之前，希望你对 XML、XML 命名空间以及 RDF 有基
02、RDF 简介
资源描述框架（RDF）是用于描述网络资源的 W3C 标准，比如网页的标题、作者、修改日期、内容以及版权信息你应当具备的基础知识在继续学习之前，我们希望你对下面的知识有基本的了解 HT
02、Perl 简介
Perl 像 C 一样强大，像 awk、sed 等脚本描述语言一样方便 Perl 又名实用报表提取语言，是 Practical Extraction and Report Language 的缩写
02、AWK 简介
AWK是一个命令行工具，它和其它的 Unix/Linux 命令行工具，比如 curl 和 wget 一样，没有界面。 AWK是一门语言，对的，一门语言，而且是一个解释性编程语言。 AWK设计之初就
02、WSDL 简介
WSDL 是基于 XML 的用于描述 Web Services 以及如何访问 Web Services 的语言学习 WSDL 之前应当具备的基础知识在继续学习之前，我们希望你对下面的知识有基本
02、JSON 简介
我们提供了 Web 版的 JSON 编辑器，你可以依托于我们的 Web 编辑器编辑 JavaScript 代码，然后通过点击一个按钮来查看结果 <!DOCTYPE html> <h
02、SVG 简介
SVG是使用 XML 来描述二维图形和绘图程序的语言, SVG 画出来的图形具有可伸缩不失真的特性学习之前应具备的基础知识：继续学习之前，我们应该对以下内容有基本的了解，这样更能方便你了解一些
02、XML 简介
XML设计的初衷是用来传输和存储数据继续学习 XML 教程前应该掌握的基础知识在我们继续学习 XML 之前，希望你对知识有基本的了解 1、 HTML； 2、 JavaScript；如果你

首页

博学

6Ren·AI

商城

python - Rosalind 共识和简介 python