python - BioPython:从 Blast 输出文件中提取序列 ID-6ren

python - BioPython:从 Blast 输出文件中提取序列 ID

转载作者：太空宇宙更新时间：2023-11-03 14:35:24

24

4

我有一个 XML 格式的 BLAST 输出文件。它是 22 个查询序列，每个序列报告 50 个命中。我想提取所有 50x22 的匹配项。这是我目前拥有的代码，但它只从第一个查询中提取 50 次匹配。

from Bio.Blast import NCBIXM
blast_records = NCBIXML.parse(result_handle)
blast_record = blast_records.next()

save_file = open("/Users/jonbra/Desktop/my_fasta_seq.fasta", 'w')

for alignment in blast_record.alignments:
    for hsp in alignment.hsps:
            save_file.write('>%s\n' % (alignment.title,))
save_file.close()

有人对提取所有命中有任何建议吗？我想我必须使用对齐以外的东西。希望这是清楚的。谢谢!

乔恩

最佳答案

这应该得到所有记录。与原作相比的新颖之处在于

for blast_record in blast_records

这是一个 python 习惯用法，用于遍历“类列表”对象中的项目，例如 blast_records(检查 CBIXML module documentation 表明 parse() 确实返回了一个迭代器)

from Bio.Blast import NCBIXM
blast_records = NCBIXML.parse(result_handle)

save_file = open("/Users/jonbra/Desktop/my_fasta_seq.fasta", 'w')

for blast_record in blast_records:
  for alignment in blast_record.alignments:
      for hsp in alignment.hsps:
            save_file.write('>%s\n' % (alignment.title,))
  #here possibly to output something to file, between each blast_record
save_file.close()

关于python - BioPython:从 Blast 输出文件中提取序列 ID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1684470/

24

4

0

文章推荐： python - PycURL 的替代品？

文章推荐： Python Dataframe 条件和

文章推荐： c# - WPF 中的 3d 矢量计算

文章推荐： python - Apache2 上的 X-Sendfile 和非常大的文件

python - BLAST 数据库分配错误
我在 stackexchange 的生物信息学版本上问过这个问题，但由于我认为这是一个计算机问题，所以我认为我应该在这里试试运气。在大型数据库(所有人类蛋白质)上运行本地 BLAST (v2.2.2
c++ - blast 无法创建单位计数容器
我建立了一个 blast 本地数据库。但是，当我运行 blastn 命令时，我收到了这条错误消息: T0 "/home/coremake/release_build/build/PrepareRele
bioinformatics - 是否可以将字符串变量而不是文件传递给 BLAST 搜索？
我正在编写一个 python 脚本，并希望将查询序列信息作为字符串变量而不是 FASTA 格式文件(如果可能)传递给 blastn。我使用 Biopython 的 SeqIO 将多个转录名称存储为键
customization - 自定义 BLAST 的输出？
我知道这是一个与 BLAST 和生物信息学相关的非常具体的问题，但这里是: 我正在尝试使用独立的 BLAST(我已经下载了它并测试了它在命令行上运行)来执行 DNA 序列比对 (blastn)。我需要
css - 从页面中心开始生长 "blast"光动画
我想使用 CSS 为径向渐变圆制作动画，以扩展页面的整个长度和宽度(完全变白)，然后反转此动画(返回到原始状态)。这应该看起来像是从中心逐渐“爆炸”的白色，一旦达到全宽度/高度就逐渐变为全白色，但是我
python - 迭代 BLAST 寻找同源基因
我是编程新手，过去几周我一直在研究生物信息学问题，但进展非常有限。我有一个包含大量基因组的大型 FASTA 文件，我希望运行全对全 BLAST 搜索，该搜索将识别同系物/直系同源物(将通过使用 -o
python - 在不创建序列文件的情况下运行 BLAST (bl2seq)
我有一个执行 BLAST 查询的脚本 (bl2seq) 脚本是这样工作的: Get sequence a, sequence b write sequence a to filea write seq
javascript - blast.js 示例在代码笔上完美运行，但在本地运行不佳
我刚刚遇到blast.js并在尝试运行 example 时遇到问题。该示例在 codepen 上完美运行，但在我本地的机器上不起作用。控制台报告以下警告和错误。非常感谢社区的帮助。 Warning:
python - 过滤 BLAST 序列的数据帧以在每个集群中获得最大 pident_x
我有一个问题，我需要解析以下数据框: cluster_name qseqid sseqid pident_x qstart qend sstar send 2
html - Email Blast HTML 大小问题
所以我有一个我正在构建的电子邮件群发并且对 HTML 特定的电子邮件群发还很陌生，我的图像和链接工作正常但我的问题是在手机上查看群发时我尝试嵌入的媒体查询是'工作。我正在使用 ASP.NET 和 H
c++ - 如何使用 'bit-blast' 方法以命题逻辑形式打印给定的公式？
我正在创建一个将位 vector 公式转换为命题逻辑形式的函数。一种称为“位爆炸”的策略将此类位 vector 表达式处理为 PL 形式。我一直在尝试创建一个接受位 vector 表达式并对其应用位
javascript - blast.js 改变 li 元素的位置
我有一个 h1 和一个带有 ul 和 li 的 nav。当鼠标移到 h1 上时，h1 开始动画并且 li 淡入。但是列表不在它应该位于的位置之后动画片。最初列表以 display:inline 居中，
python - 使用 python 在单个 BLAST 文件中找到最佳相互命中
我有一个标准格式的 BLAST outfmt 6 输出文件，我想找到一种方法来遍历该文件，选择每个命中，找到它的倒数命中并解密哪个是最好的存储命中。例如: d = {} for line in in
python - BioPython:从 Blast 输出文件中提取序列 ID
我有一个 XML 格式的 BLAST 输出文件。它是 22 个查询序列，每个序列报告 50 个命中。我想提取所有 50x22 的匹配项。这是我目前拥有的代码，但它只从第一个查询中提取 50 次匹配。
python - 使用 NcbiblastxCommandline 自定义 blast 数据库
这是我第一次在 biopython 中使用 blast，我遇到了问题。我使用包含 20 个序列的 fasta 文件创建了一个自定义 blast 数据库: os.system('makeblastdb
python - 如何从 XML NCBI BLAST 文件中提取第一个命中元素？
我试图仅从 NCBI xml BLAST 文件中提取第一个匹配项。接下来我只想获得第一个 HSP。在最后阶段，我想根据最好的分数获得这些。为了在此处清楚说明 xml 文件的示例: blast
c - 直接从我的应用程序执行 BLAST/Smith Waterman 搜索
我正在开发一个小型应用程序，并考虑将 BLAST 或其他本地比对搜索集成到我的应用程序中。我的搜索只调出程序，需要作为外部程序安装和调用。从头开始实现它还有什么办法吗？可能有任何预制库吗？最佳答案
javascript - blast.js 动画与 jquery ui 彩色动画
我正在使用 blast.js 来制作两个单词的动画，并使用 jquery ui 来制作颜色动画。我尝试过的一切都没有奏效。 DEMO CSS 与 DEMO 无关，因为颜色按钮没有 css 规则。 va
python - 使用 python 格式解析 BLAST.xml 需要小写字符串
返回值错误:searchIO_utils.py 的 get_processor 中第 25 行需要格式(小写字符串)。 AtCBL1_CDS.txt 是一个包含 fasta 格式的蛋白质序列的文件。
http - 我如何结合扭矩和 html，如 ncbi blast 服务？
我使用 php 将作业提交给 torque (pbs)，它(torque)生成的输出为:“此帐户目前不可用。” 我认为它引用了运行 httpd(apache) 的帐户apache 是一个“/sbin/

首页

博学

6Ren·AI

商城

python - BioPython:从 Blast 输出文件中提取序列 ID