python - 解析fasta序列到字典-6ren

python - 解析fasta序列到字典

转载作者：太空宇宙更新时间：2023-11-04 09:03:54

25

4

我需要最简单的解决方案来转换包含多个核苷酸序列的 fasta.txt，例如

>seq1
TAGATTCTGAGTTATCTCTTGCATTAGCAGGTCATCCTGGTCAAACCGCTACTGTTCCGG
CTTTCTGATAATTGATAGCATACGCTGCGAACCCACGGAAGGGGGTCGAGGACAGTGGTG
>seq2
TCCCTCTAGAGGCTCTTTACCGTGATGCTACATCTTACAGGTATTTCTGAGGCTCTTTCA
AACAGGTGCGCGTGAACAACAACCCACGGCAAACGAGTACAGTGTGTACGCCTGAGAGTA
>seq3
GGTTCCGCTCTAAGCCTCTAACTCCCGCACAGGGAAGAGATGTCGATTAACTTGCGCCCA
TAGAGCTCTGCGCGTGCGTCGAAGGCTCTTTTCGCGATATCTGTGTGGTCTCACTTTGGT

到字典(名称，值)对象，其中名称将是>标题，值将分配给相应的序列。

你可以在下面找到我失败的尝试，通过 2 个列表(不适用于包含 >1 行的长序列)

f = open('input2.txt', 'r')
list={}
names=[]
seq=[]
for line in f:
 if line.startswith('>'):
  names.append(line[1:-1])
 elif line.startswith('A') or line.startswith('C') or line.startswith('G') or line.startswith('T'):
  seq.append(line)

list = dict(zip(names, seq))

如果您向我提供如何修复它的解决方案并举例说明如何通过单独的函数进行修复，我将不胜感激。

谢谢你的帮助，

格言

最佳答案

最好用biopython库

from Bio import SeqIO
input_file = open("input.fasta")
my_dict = SeqIO.to_dict(SeqIO.parse(input_file, "fasta"))

关于python - 解析fasta序列到字典，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22698807/

25

4

0

文章推荐： java - 从AWS s3文件读取N个字节没有读取N个字节

文章推荐： java - 无法弄清楚如何通过我的方法传递文件

文章推荐： java - setEnabled 在 Android 的某些设备上不起作用

文章推荐： python - 如何增加Windows上气球弹出通知的时间

将 FASTA 读入数据帧并提取 FASTA 文件的子序列
我有一个小的 DNA 序列 fasta 文件，它看起来像这样: >NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATAT
python - 从一个大的 fasta 文件中提取特定的 fasta 序列
我想使用以下脚本从一个大的 fasta 文件中提取特定的 fasta 序列，但输出为空。 transcripts.txt 文件包含我要从 assembly.fasta 导出到 selected_tra
linux - 如何使用 Linux 命令行通过剪切 Fasta 序列的某些部分并保留序列的主要文本来编辑 fasta 序列中的标题？
我有一个名为 fasta1.fasta 的多 fasta 文件，其中包含序列及其 ID。我想要的是剪切具有 ID 的序列 header 并将其减少为仅包含序列的 ID 登录号。我使用了命令行 grep
javascript - 如何将 FASTA 读入数据框并在 d3.js 中提取 FASTA 文件的子序列
我有一个 DNA 序列的小 fasta 文件，如下所示: sequence 1 > ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC sequence
python - 在一个 fasta 中查找重叠群的长度，使用另一个 fasta 的 header 作为 python 中的查询
我试图找到一个 python 解决方案，使用序列的完整 header 作为查询来提取 fasta 文件中特定序列的长度。完整的 header 作为变量存储在管道的早期(即“CONTIG”)。我想将此脚
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
python - fasta 文件标题行插入列
我有一个 fasta 文件，其中包含序列 header 及其相应的序列，如下所示: >ID101_hg19 ATGGGTGTATCGTACCC >ID102_hg19 AGCTTTAGCGGGGTAC
python - 如何检查给定文件是否为 FASTA？
我正在设计一个需要在早期阶段之一输入 .fasta 文件的代码。现在，我正在使用此函数验证输入: def file_validation(fasta): while True:
awk 合并来自两个文件的信息(fasta 文件头)
我知道有很多类似的问题，我已经通读了其中的许多问题。但我仍然无法让我的代码工作。有人可以帮我指出问题吗？谢谢! (base) $ head Sample.pep2 >M00000032072 gene
python - 将多个 fasta 文件拆分为具有相同编号的文件
我有一个包含数千个登录号的文件: 看起来像这样.. >NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014, complete genom
regex - 使用正则表达式从 fasta 文件中获取特定序列
我想从输入 fasta 文件中检索第 nth 序列(或者最好从 nth 到 mth 序列)，理想情况下使用 unix“单线”。我知道我可以用 perl(或任何其他脚本语言)读取序列、计数，然后打印序
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 仅从 fasta 文件中提取第一个序列
我只想从多个序列的 fasta 文件中提取第一个序列。我在下面有这段代码，但我无法让循环恰到好处地相互配合。 while (my $line = ) { chomp $line;
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
unix - 删除 FASTA 文件中的换行符
我有一个 fasta 文件，其中序列用换行符分隔。我想删除换行符。这是我的文件的示例: >accession1 ATGGCCCATG GGATCCTAGC >accession2 GATATCCATG
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 在 FASTA 文件中搜索主题并为每个包含主题的序列返回标题行
下面是我用于搜索在命令行输入的 FASTA 文件以查找用户提供的主题的代码。当我运行它并输入一个我知道在文件中的主题时，它返回“找不到主题”。我只是 Perl 的初学者，我无法弄清楚如何让它打印找到的
unix - 提取 fasta 文件中给定序列的序列头
我有一个这样的 fasta 文件(myfasta.fasta): >aat.2.2344.a ATTGCCGGTTTAATATTA >aat.2.d2344.acc ATTGCCGGTTTAATAAA

首页

博学

6Ren·AI

商城

python - 解析fasta序列到字典