bash - 如何从基因列表中挑选多个fasta序列-6ren

bash - 如何从基因列表中挑选多个fasta序列

转载作者：行者123 更新时间：2023-12-01 09:01:53

26

4

我有两个文件

基因列表文件是这样的

LOC_Os06g12230.1
Pavir.Ab03005
Pavir.J14065
ChrUn.fgenesh
Sevir.1G325700
LOC_Os02g51280.1
Bradi3g59320
Brast04G017400

Fasta 序列文件是这样的

>LOC_Os03g57190.1 pacid=33130570 polypeptide=LOC_Os03g57190.1 locus=LOC_Os03g57190 ID=LOC_Os03g57190.1.MSUv7.0 annot-version=v7.0
ATGGAGGCGGCGGTGGGGGACGGGGAAGGCGGTGGCGGCGGCGGCGGGCGGGGGAAGCGTGGGCGGGGAGGAGGAGGAGG
GGAGATGGTGGAGGCGGTGTGGGGGCAGACGGGGAGTACGGCGTCGCGGATCTACAGGGTGAGGGCGACGGGGGGGAAGG
ACAGGCACAGCAAGGTGTACACGGCGAAGGGAATCCGCGACCGCCGCGTCCGCCTCTCCGTCGCCACCGCCATCCAGTTC
TACGACCTCCAGGACCGCCTCGGCTTCGACCAGCCGAGCAAGGCCATCGAGTGG
>LOC_Os02g51280.1 pacid=33134358 polypeptide=LOC_Os02g51280.1 locus=LOC_Os02g51280 ID=LOC_Os02g51280.1.MSUv7.0 annot-version=v7.0
ATGACCATGGACGTCGCCGGAGACGCCGGAGGTGGCCGCCGCCCAAACTTCCCCTTGCAGCTTCTTGAGAAGAAGGAGGA
CGGGCGGTGCCGGAGGGGAGATGCAGCTGCGGAAGGCGGCGCCGAAGCGGAGCTCCACCAAGGACCGGCACACCAAGGTG
GAAGGGAGGGGGCGGCGCATCCGGATGCCGGCGCTGTGCGCGGCGAGGGTGTTCCAGCTGACGCGGGAGCTGG
>LOC_Os06g12230.1 pacid=33145596 polypeptide=LOC_Os06g12230.1 locus=LOC_Os06g12230 ID=LOC_Os06g12230.1.MSUv7.0 annot-version=v7.0
ATGGATGTCACCGGAGACGGCGGAGGAGGAGGGCAACGGCCCAATTTCCCCCTGCAGCTCCTCGGGAAGAAGGAGGAGCA
GACGTGCTCGACGTCGCAGACTGCCGGGGCGGGCGGCGGCGGCGTCGTGGGCGCGAATGGGTCGGCGGCGGCGGCGCCGC
CGAAGCGGACGTCGACGAAGGACCGGCACACGAAGGTGGACGGGCGGGGGCGGCGCATCCGGATGCCGGCGATCTGCGCC
GCGCGGGTGTTCCAGCTGACGCGGGAGCTCGGGCACAAGACCGACGGCGA
>LOC_Os05g43760.1 pacid=33158388 polypeptide=LOC_Os05g43760.1 locus=LOC_Os05g43760 ID=LOC_Os05g43760.1.MSUv7.0 annot-version=v7.0
ATGACAAGCAATAACAGCACGAATGAGGAGCTCGGCGGCGGCGGCAGGAAGGCGGCCGACAAGCCGAGCGGCGGCGGCGG
CGCCGCCGCCGCCGTGGCGAGCTCGCGGCACTGGTCGGCGTCGACGGAGTCGCGGATCGTGCGCGTGTCGAGGGTGTTCG
GCGGCAAGGACCGTCACAGCAAGGTGAGGACGGTGAAGGGGCTCCGCGACCGGCGGGTGCGGCTGTCGGTGCCGACGGCG
ATCCAGCTCTACGACCTGCAGGACCGGCTGGGGCTCAGCCAGCCGAGCAAGGTGGTCGACT

如果基因名和标题行匹配，则序列必须被拉出到新文件中

新文件应该包含

>LOC_Os02g51280.1 pacid=33134358 polypeptide=LOC_Os02g51280.1 locus=LOC_Os02g51280 ID=LOC_Os02g51280.1.MSUv7.0 annot-version=v7.0
ATGACCATGGACGTCGCCGGAGACGCCGGAGGTGGCCGCCGCCCAAACTTCCCCTTGCAGCTTCTTGAGAAGAAGGAGGA
CGGGCGGTGCCGGAGGGGAGATGCAGCTGCGGAAGGCGGCGCCGAAGCGGAGCTCCACCAAGGACCGGCACACCAAGGTG
GAAGGGAGGGGGCGGCGCATCCGGATGCCGGCGCTGTGCGCGGCGAGGGTGTTCCAGCTGACGCGGGAGCTGG
>LOC_Os06g12230.1 pacid=33145596 polypeptide=LOC_Os06g12230.1 locus=LOC_Os06g12230 ID=LOC_Os06g12230.1.MSUv7.0 annot-version=v7.0
ATGGATGTCACCGGAGACGGCGGAGGAGGAGGGCAACGGCCCAATTTCCCCCTGCAGCTCCTCGGGAAGAAGGAGGAGCA
GACGTGCTCGACGTCGCAGACTGCCGGGGCGGGCGGCGGCGGCGTCGTGGGCGCGAATGGGTCGGCGGCGGCGGCGCCGC
CGAAGCGGACGTCGACGAAGGACCGGCACACGAAGGTGGACGGGCGGGGGCGGCGCATCCGGATGCCGGCGATCTGCGCC
GCGCGGGTGTTCCAGCTGACGCGGGAGCTCGGGCACAAGACCGACGGCGA

我试过这样

grep -f genelist.txt -A3 fastafile.txt >> newfasta.txt

但不同的fasta序列长度不同，

模式匹配后，我想选择直到下一个'>'符号出现

最佳答案

能否请您尝试以下。

awk '
FNR==NR{
  a[$0]
  next
}
/^>/{
  found=""
}
($2 in a){
  found=1
}
found
' Input_file_gene FS="[> ]" Input_file

输出如下。

>LOC_Os02g51280.1 pacid=33134358 polypeptide=LOC_Os02g51280.1 locus=LOC_Os02g51280 ID=LOC_Os02g51280.1.MSUv7.0 annot-version=v7.0
ATGACCATGGACGTCGCCGGAGACGCCGGAGGTGGCCGCCGCCCAAACTTCCCCTTGCAGCTTCTTGAGAAGAAGGAGGA
CGGGCGGTGCCGGAGGGGAGATGCAGCTGCGGAAGGCGGCGCCGAAGCGGAGCTCCACCAAGGACCGGCACACCAAGGTG
GAAGGGAGGGGGCGGCGCATCCGGATGCCGGCGCTGTGCGCGGCGAGGGTGTTCCAGCTGACGCGGGAGCTGG
>LOC_Os06g12230.1 pacid=33145596 polypeptide=LOC_Os06g12230.1 locus=LOC_Os06g12230 ID=LOC_Os06g12230.1.MSUv7.0 annot-version=v7.0
ATGGATGTCACCGGAGACGGCGGAGGAGGAGGGCAACGGCCCAATTTCCCCCTGCAGCTCCTCGGGAAGAAGGAGGAGCA
GACGTGCTCGACGTCGCAGACTGCCGGGGCGGGCGGCGGCGGCGTCGTGGGCGCGAATGGGTCGGCGGCGGCGGCGCCGC
CGAAGCGGACGTCGACGAAGGACCGGCACACGAAGGTGGACGGGCGGGGGCGGCGCATCCGGATGCCGGCGATCTGCGCC
GCGCGGGTGTTCCAGCTGACGCGGGAGCTCGGGCACAAGACCGACGGCGA

关于bash - 如何从基因列表中挑选多个fasta序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60769591/

26

4

0

文章推荐： java - 查找列表中数据库列中不存在的数字

将 FASTA 读入数据帧并提取 FASTA 文件的子序列
我有一个小的 DNA 序列 fasta 文件，它看起来像这样: >NM_000016 700 200 234 ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATAT
python - 从一个大的 fasta 文件中提取特定的 fasta 序列
我想使用以下脚本从一个大的 fasta 文件中提取特定的 fasta 序列，但输出为空。 transcripts.txt 文件包含我要从 assembly.fasta 导出到 selected_tra
linux - 如何使用 Linux 命令行通过剪切 Fasta 序列的某些部分并保留序列的主要文本来编辑 fasta 序列中的标题？
我有一个名为 fasta1.fasta 的多 fasta 文件，其中包含序列及其 ID。我想要的是剪切具有 ID 的序列 header 并将其减少为仅包含序列的 ID 登录号。我使用了命令行 grep
javascript - 如何将 FASTA 读入数据框并在 d3.js 中提取 FASTA 文件的子序列
我有一个 DNA 序列的小 fasta 文件，如下所示: sequence 1 > ACATATTGGAGGCCGAAACAATGAGGCGTGATCAACTCAGTATATCAC sequence
python - 在一个 fasta 中查找重叠群的长度，使用另一个 fasta 的 header 作为 python 中的查询
我试图找到一个 python 解决方案，使用序列的完整 header 作为查询来提取 fasta 文件中特定序列的长度。完整的 header 作为变量存储在管道的早期(即“CONTIG”)。我想将此脚
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
awk - 将多个文件的序列列表转换为 fasta
我有数千个文件，它们是序列名称列表及其序列，每行一个单独的文件，如下所示: L.abdalai.LJAMM.14363.SanMartindeLosAndes CCCTAAGAATAAT
python - fasta 文件标题行插入列
我有一个 fasta 文件，其中包含序列 header 及其相应的序列，如下所示: >ID101_hg19 ATGGGTGTATCGTACCC >ID102_hg19 AGCTTTAGCGGGGTAC
python - 如何检查给定文件是否为 FASTA？
我正在设计一个需要在早期阶段之一输入 .fasta 文件的代码。现在，我正在使用此函数验证输入: def file_validation(fasta): while True:
awk 合并来自两个文件的信息(fasta 文件头)
我知道有很多类似的问题，我已经通读了其中的许多问题。但我仍然无法让我的代码工作。有人可以帮我指出问题吗？谢谢! (base) $ head Sample.pep2 >M00000032072 gene
python - 将多个 fasta 文件拆分为具有相同编号的文件
我有一个包含数千个登录号的文件: 看起来像这样.. >NC_033829.1 Kallithea virus isolate DrosEU46_Kharkiv_2014, complete genom
regex - 使用正则表达式从 fasta 文件中获取特定序列
我想从输入 fasta 文件中检索第 nth 序列(或者最好从 nth 到 mth 序列)，理想情况下使用 unix“单线”。我知道我可以用 perl(或任何其他脚本语言)读取序列、计数，然后打印序
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 仅从 fasta 文件中提取第一个序列
我只想从多个序列的 fasta 文件中提取第一个序列。我在下面有这段代码，但我无法让循环恰到好处地相互配合。 while (my $line = ) { chomp $line;
regex - 从 fasta 文件生成随机子集序列
向全世界的 Perl 大师们问好。我在编程方面遇到了另一个麻烦。我正在编写一个程序，该程序从具有特定输入编号的蛋白质组 fasta 文件中选择随机序列。一般的 fasta 文件如下所示: >seq
unix - 删除 FASTA 文件中的换行符
我有一个 fasta 文件，其中序列用换行符分隔。我想删除换行符。这是我的文件的示例: >accession1 ATGGCCCATG GGATCCTAGC >accession2 GATATCCATG
bash - 替换 fasta 中的名称
我想根据包含新名称的文本文件更改 fasta 文件中的序列名称。我找到了几种方法，但 seqkit 给人留下了很好的印象，无论如何我无法让它运行。通过键值文件将键替换为值 fasta 文件 seq.
perl - 在 FASTA 文件中搜索主题并为每个包含主题的序列返回标题行
下面是我用于搜索在命令行输入的 FASTA 文件以查找用户提供的主题的代码。当我运行它并输入一个我知道在文件中的主题时，它返回“找不到主题”。我只是 Perl 的初学者，我无法弄清楚如何让它打印找到的
unix - 提取 fasta 文件中给定序列的序列头
我有一个这样的 fasta 文件(myfasta.fasta): >aat.2.2344.a ATTGCCGGTTTAATATTA >aat.2.d2344.acc ATTGCCGGTTTAATAAA

首页

博学

6Ren·AI

商城

bash - 如何从基因列表中挑选多个fasta序列