python - 将 Fasta 序列与多播文件的子字符串进行比较并更改 ID 名称-6ren

python - 将 Fasta 序列与多播文件的子字符串进行比较并更改 ID 名称

转载作者：行者123 更新时间：2023-12-01 06:49:49

28

4

我正在尝试比较两个 multifasta 文件。一种具有 microRNA 前体 (70nt)，另一种具有成熟的 microRNA (22nt)。我想将成熟的 microRNA 与前体文件的前 20 nt 进行比较，如果包含该序列，我希望它将成熟的 microRNA 中的 ID 更改为 >ID_5p。到目前为止，我编写了一个脚本，它给出的输出只是我的成熟文件中多次复制的一些序列。你能帮我吗？

from Bio import SeqIO

for mature in SeqIO.parse("mature_microRNAs_final.txt", "fasta"):
    mature.id
    repr(mature.seq)
    len(mature)

    for precursors in SeqIO.parse("precursors_microRNAs_final.txt", "fasta"):
        precursors.id, precursors.seq, len(precursors.seq)
        precursors_5p = precursors.seq[0:20]

        for seq in mature:
            if mature.seq == precursors_5p:
                print(mature.id+"_5p" , "\n" + mature.seq)

最佳答案

这里不需要嵌套循环(这会导致重复输出)，而是存储相关的前体序列并与成熟序列进行比较:

from Bio import SeqIO

precursors = {
    record.seq[:20] for record in SeqIO.parse("precursors_microRNAs_final.txt", "fasta")
}

for record in SeqIO.parse("mature_microRNAs_final.txt", "fasta"):
    if record.seq[:20] in precursors:
        record.id += "_5p"
        record.description = record.id + " " + record.description.split(" ", 1)[1]
    print(record.format("fasta"))

请注意，我假设您只希望成熟记录的前 20 个核苷酸与前体记录的前 20 个核苷酸中的任何一个相同。该解决方案可以适应其他标准。

关于python - 将 Fasta 序列与多播文件的子字符串进行比较并更改 ID 名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59072201/

28

4

0

文章推荐： jquery - Facebook 标记

文章推荐： java 。 String 内的 if 语句作为函数参数

文章推荐： python - 将系数正则化添加到 Statsmodels(或 Patsy)

将 FASTA 读入数据帧并提取 FASTA 文件的子序列
我有一个小的 DNA 序列 fasta 文件，它看起来像这样: >NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATAT
python - 从一个大的 fasta 文件中提取特定的 fasta 序列
我想使用以下脚本从一个大的 fasta 文件中提取特定的 fasta 序列，但输出为空。 transcripts.txt 文件包含我要从 assembly.fasta 导出到 selected_tra
linux - 如何使用 Linux 命令行通过剪切 Fasta 序列的某些部分并保留序列的主要文本来编辑 fasta 序列中的标题？
我有一个名为 fasta1.fasta 的多 fasta 文件，其中包含序列及其 ID。我想要的是剪切具有 ID 的序列 header 并将其减少为仅包含序列的 ID 登录号。我使用了命令行 grep
javascript - 如何将 FASTA 读入数据框并在 d3.js 中提取 FASTA 文件的子序列
我有一个 DNA 序列的小 fasta 文件，如下所示: sequence 1 > ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC sequence
python - 在一个 fasta 中查找重叠群的长度，使用另一个 fasta 的 header 作为 python 中的查询
我试图找到一个 python 解决方案，使用序列的完整 header 作为查询来提取 fasta 文件中特定序列的长度。完整的 header 作为变量存储在管道的早期(即“CONTIG”)。我想将此脚
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
python - fasta 文件标题行插入列
我有一个 fasta 文件，其中包含序列 header 及其相应的序列，如下所示: >ID101_hg19 ATGGGTGTATCGTACCC >ID102_hg19 AGCTTTAGCGGGGTAC
python - 如何检查给定文件是否为 FASTA？
我正在设计一个需要在早期阶段之一输入 .fasta 文件的代码。现在，我正在使用此函数验证输入: def file_validation(fasta): while True:
awk 合并来自两个文件的信息(fasta 文件头)
我知道有很多类似的问题，我已经通读了其中的许多问题。但我仍然无法让我的代码工作。有人可以帮我指出问题吗？谢谢! (base) $ head Sample.pep2 >M00000032072 gene
python - 将多个 fasta 文件拆分为具有相同编号的文件
我有一个包含数千个登录号的文件: 看起来像这样.. >NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014, complete genom
regex - 使用正则表达式从 fasta 文件中获取特定序列
我想从输入 fasta 文件中检索第 nth 序列(或者最好从 nth 到 mth 序列)，理想情况下使用 unix“单线”。我知道我可以用 perl(或任何其他脚本语言)读取序列、计数，然后打印序
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 仅从 fasta 文件中提取第一个序列
我只想从多个序列的 fasta 文件中提取第一个序列。我在下面有这段代码，但我无法让循环恰到好处地相互配合。 while (my $line = ) { chomp $line;
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
unix - 删除 FASTA 文件中的换行符
我有一个 fasta 文件，其中序列用换行符分隔。我想删除换行符。这是我的文件的示例: >accession1 ATGGCCCATG GGATCCTAGC >accession2 GATATCCATG
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 在 FASTA 文件中搜索主题并为每个包含主题的序列返回标题行
下面是我用于搜索在命令行输入的 FASTA 文件以查找用户提供的主题的代码。当我运行它并输入一个我知道在文件中的主题时，它返回“找不到主题”。我只是 Perl 的初学者，我无法弄清楚如何让它打印找到的
unix - 提取 fasta 文件中给定序列的序列头
我有一个这样的 fasta 文件(myfasta.fasta): >aat.2.2344.a ATTGCCGGTTTAATATTA >aat.2.d2344.acc ATTGCCGGTTTAATAAA

首页

博学

6Ren·AI

商城

python - 将 Fasta 序列与多播文件的子字符串进行比较并更改 ID 名称