gpt4 book ai didi

linux - 如何使用 Linux 命令行通过剪切 Fasta 序列的某些部分并保留序列的主要文本来编辑 fasta 序列中的标题?

转载 作者:太空宇宙 更新时间:2023-11-04 04:43:18 26 4
gpt4 key购买 nike

我有一个名为 fasta1.fasta 的多 fasta 文件,其中包含序列及其 ID。我想要的是剪切具有 ID 的序列 header 并将其减少为仅包含序列的 ID 登录号。我使用了命令行 grep '>' fasta1.fasta | cut -d ""-f 1 从标题中剪切我想要的部分,但我得到的输出只是 ID 登录号,没有其余序列。我的序列如下所示:

>tr|Q8IBQ5|Q8IBQ5_PLAF7 40S ribosomal protein S10, putative OS=Plasmodium falciparum (isolate 3D7) OX=36329 GN=PF3D7_$
MDKQTLPHHKYSYIPKQNKKLIYEYLFKEGVIVVEKDAKIPRHPHLNVPNLHIMMTLKSL
KSRNYVEEKYNWKHQYFILNNEGIEYLREFLHLPPSIFPATLSKKTVNRAPKMDEDISRD
VRQPMGRGRAFDRRPFE
>tr|Q8IEB1|Q8IEB1_PLAF7 TBC domain protein, putative OS=Plasmodium falciparum (isolate 3D7) OX=36329 GN=PF3D7_132020$
MEYKLEFLSYLLIFKKKNERISKFDEQIKTCINIFEKSIINESDLKYLFERNILDMNPGV
RSMCWKLALKHLSLDSNKWNTELIEKKKLYEEYIKSFVINPYYSCVDNKKKEFVKETEKE
PKGKNMKDEYIEYNLDRNKTYYHKDDSLLKLQNDNNTKQMDYLEDEKYSSMDDECSEDNW

我得到的输出是:

>tr|Q8IBQ5|Q8IBQ5_PLAF7

>tr|Q8IEB1|Q8IEB1_PLAF7

虽然所需的输出是:

>tr|Q8IBQ5|Q8IBQ5_PLAF7
MDKQTLPHHKYSYIPKQNKKLIYEYLFKEGVIVVEKDAKIPRHPHLNVPNLHIMMTLKSL
KSRNYVEEKYNWKHQYFILNNEGIEYLREFLHLPPSIFPATLSKKTVNRAPKMDEDISRD
VRQPMGRGRAFDRRPFE
>tr|Q8IEB1|Q8IEB1_PLAF7
EYKLEFLSYLLIFKKKNERISKFDEQIKTCINIFEKSIINESDLKYLFERNILDMNPGV
RSMCWKLALKHLSLDSNKWNTELIEKKKLYEEYIKSFVINPYYSCVDNKKKEFVKETEKE
PKGKNMKDEYIEYNLDRNKTYYHKDDSLLKLQNDNNTKQMDYLEDEKYSSMDDECSEDNW

任何帮助将不胜感激。谢谢。

最佳答案

  • 变体 1:

    sed '/^>/s/ .*//'
  • 变体 2:

    perl -pe 's/ .*// if /^>/'

也就是说,在所有以 > 开头的行中,删除第一个空格之后的所有内容(包括第一个空格)。

关于linux - 如何使用 Linux 命令行通过剪切 Fasta 序列的某些部分并保留序列的主要文本来编辑 fasta 序列中的标题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53944872/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com