python - 从 FASTA 文件中提取基因序列？-6ren

python - 从 FASTA 文件中提取基因序列？

转载作者：太空宇宙更新时间：2023-11-04 04:20:26

25

4

我有以下代码读取包含 10 个基因序列的 FASTA 文件并将每个序列作为矩阵返回。然而，代码似乎在最后一个序列中丢失了，我想知道为什么？

file=open('/Users/vivianspro/Downloads/rosalind_cons (5).txt', 'r')
line=file.readline()

strings = []
sequence=''
while line:
    #line=line.rstrip('\n')
    line = line.strip() #empty () automatically strips the \n
    if '>' in line:
        if sequence != "":
            strings.append(sequence)
            sequence = ""
        #sequence=line
    else:
        sequence+=line
    line=file.readline()
for s in strings:
    print(s)

Motifs = []
for seq in strings:
    Motifs.append(list(seq))

#make every symbol into an element in the list separated by ,
for s in Motifs:
    print(s) ````

最佳答案

当您看到一个新的 > 但在最后一个序列之后没有一个时，您只追加到 strings。

这是一个重构，希望它也更符合惯用语。

strings = []
sequence=''

with open('/Users/vivianspro/Downloads/rosalind_cons (5).txt', 'r') as file:
    for line in file:
        line = line.rstrip('\n')
        if line.startswith('>'):
            if sequence != "":
                strings.append(sequence)
            sequence = ""
        else:
            sequence+=line
    # After the last iteration, append once more if we have something to append
    if sequence:
        strings.append(sequence)

关于python - 从 FASTA 文件中提取基因序列？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54586663/

25

4

0

文章推荐： html - 仅在 chrome 中的按钮周围出现奇怪的蓝色

文章推荐：配置在静态 Tor 编译期间不读取 --with-openssl-dir

文章推荐： linux - CIFS/SMB 写入优化

将 FASTA 读入数据帧并提取 FASTA 文件的子序列
我有一个小的 DNA 序列 fasta 文件，它看起来像这样: >NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATAT
python - 从一个大的 fasta 文件中提取特定的 fasta 序列
我想使用以下脚本从一个大的 fasta 文件中提取特定的 fasta 序列，但输出为空。 transcripts.txt 文件包含我要从 assembly.fasta 导出到 selected_tra
linux - 如何使用 Linux 命令行通过剪切 Fasta 序列的某些部分并保留序列的主要文本来编辑 fasta 序列中的标题？
我有一个名为 fasta1.fasta 的多 fasta 文件，其中包含序列及其 ID。我想要的是剪切具有 ID 的序列 header 并将其减少为仅包含序列的 ID 登录号。我使用了命令行 grep
javascript - 如何将 FASTA 读入数据框并在 d3.js 中提取 FASTA 文件的子序列
我有一个 DNA 序列的小 fasta 文件，如下所示: sequence 1 > ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC sequence
python - 在一个 fasta 中查找重叠群的长度，使用另一个 fasta 的 header 作为 python 中的查询
我试图找到一个 python 解决方案，使用序列的完整 header 作为查询来提取 fasta 文件中特定序列的长度。完整的 header 作为变量存储在管道的早期(即“CONTIG”)。我想将此脚
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
python - fasta 文件标题行插入列
我有一个 fasta 文件，其中包含序列 header 及其相应的序列，如下所示: >ID101_hg19 ATGGGTGTATCGTACCC >ID102_hg19 AGCTTTAGCGGGGTAC
python - 如何检查给定文件是否为 FASTA？
我正在设计一个需要在早期阶段之一输入 .fasta 文件的代码。现在，我正在使用此函数验证输入: def file_validation(fasta): while True:
awk 合并来自两个文件的信息(fasta 文件头)
我知道有很多类似的问题，我已经通读了其中的许多问题。但我仍然无法让我的代码工作。有人可以帮我指出问题吗？谢谢! (base) $ head Sample.pep2 >M00000032072 gene
python - 将多个 fasta 文件拆分为具有相同编号的文件
我有一个包含数千个登录号的文件: 看起来像这样.. >NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014, complete genom
regex - 使用正则表达式从 fasta 文件中获取特定序列
我想从输入 fasta 文件中检索第 nth 序列(或者最好从 nth 到 mth 序列)，理想情况下使用 unix“单线”。我知道我可以用 perl(或任何其他脚本语言)读取序列、计数，然后打印序
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 仅从 fasta 文件中提取第一个序列
我只想从多个序列的 fasta 文件中提取第一个序列。我在下面有这段代码，但我无法让循环恰到好处地相互配合。 while (my $line = ) { chomp $line;
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
unix - 删除 FASTA 文件中的换行符
我有一个 fasta 文件，其中序列用换行符分隔。我想删除换行符。这是我的文件的示例: >accession1 ATGGCCCATG GGATCCTAGC >accession2 GATATCCATG
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 在 FASTA 文件中搜索主题并为每个包含主题的序列返回标题行
下面是我用于搜索在命令行输入的 FASTA 文件以查找用户提供的主题的代码。当我运行它并输入一个我知道在文件中的主题时，它返回“找不到主题”。我只是 Perl 的初学者，我无法弄清楚如何让它打印找到的
unix - 提取 fasta 文件中给定序列的序列头
我有一个这样的 fasta 文件(myfasta.fasta): >aat.2.2344.a ATTGCCGGTTTAATATTA >aat.2.d2344.acc ATTGCCGGTTTAATAAA

首页

博学

6Ren·AI

商城

python - 从 FASTA 文件中提取基因序列？