gpt4 book ai didi

python - 我可以用来从一组蛋白质中分离假设蛋白质的命令?

转载 作者:塔克拉玛干 更新时间:2023-11-03 00:51:28 27 4
gpt4 key购买 nike

我在 fasta 中有一个包含 5000 个蛋白质序列的大文件,其中有假设蛋白质和功能蛋白质,我如何将假设蛋白质与假定蛋白质分开。所以基本上假设的蛋白质在它们的标题中都有假设这个词所以我希望我可以使用一些命令来分离它们。有谁知道执行此操作的 python 或 linux 命令?像这样的东西

vir0002 BASYS00002, 605-1000 (Clockwise) MobC Protein MPKPASDGAGSGCHVQAGVTSLPTEYPFDRRKSRMARTQTFTQEQLDKTKQALSELPDLS RNKIAKADFLESLKDQIVLLANTKGYSPAEIKSALAQVNVTVSVKSIADLLNTQGKRQPR KSADKKSNPTQ vir003 yubP, 2257-1421 (CounterClockwise) UPF0380 protein yubP MQFSNSVRGPNMLRADHPLSNEQIASVAPSIFAAEAYESRSERYLYIPTVEVLDALREEG FEPFMASQTRVRNAGKIEHTKHMLRLRHSSSIMDKEADEIILLNSHDGSSSYQMMAGVFR FVCQNGLVIGDRSFDQKIRHSGNDDIKSDVIEGAYEVLDQFKAMSEQKECMKQIKLCADE QEAFATAALSYRYDPQEGPAPVTARQLLSPRRVEDYENDLWTTFNRIQENSIKGGLRGRN KSGRRATTRSVSGIDQDVKLNRALWTLAQELRGHLTTA vir004 BASYS00004, 3593-2535 (CounterClockwise) Nuclease MHELSAEAASQLEALEKELESVQATIESLSDQDSEQSKALDIREDELEDEISKIQKSREG FALEVMPHAGAVISYYYGDLRINRGMVRTADRESVNAVLGEGERLAGGRETESAGRKSNT ISDALRRSLLGHRNLAAQFVTAANPKAAKMLIVCKWISDTRRNWSATPTDLSIGNGYGAR TGCPITDEAGRVREEEFVALGELLIEGLPTEYGDLWDALAALSEAEIDKLLAFAVARSVS LAVEDNVLSKKYVQTLGMKMEDHFVPTVGNYLGRVSKELIIEALKEARKIQSDEDQVTLL AMKKGALAAEAETRLMGTGWVPAEIATKPEELAQEKNSKKKKNSSKPATGKA vir005 yubM, 4624-3506 (CounterClockwise) Uncharacterized protein yubM MSLHVVTLMCVECITIPSALHRHRCPIRAAATAPGLPCRGFYMSNAYNTVVPFNRLRRSE ENVRRTGRASAHYKAGIKKLAASILSTHKQTGQGLLQNLVVHVNGENFDVAAGGRRYDAV SLLIEEGEFQADYPTACLVIDADAVTAASLTENVSREAMHPADELDAFKALTEQGWTIDS IPDSFGVTALVVERRLKVRAAAPALIEEYRLGALTTDQLIALCATDDHDRQLEVWNRLRQ QHWNNDPATLRRAVIKTEVESNDKRVTFIGGVEVYEAAGGEVRRDLFAEDGQGAFLSDSA LLDVLVETKLQEVGEQVRAEGWGWIEVWQQFDHTHTVWATHRRSCMSCQPKQLVSLKHWK RSLRAYRPPLRA vir006 BASYS00006, 5844-5293 (CounterClockwise) Hypothetical Protein PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA

我希望有两个文件一个包含

vir006 BASYS00006, 5844-5293 (CounterClockwise) Hypothetical Protein PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA and the other containing the rest of the protein sequences

最佳答案

Biopython 有一个 FASTA 解析器,它应该能够做你想做的事。获取和使用说明位于 http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc11。 .

http://www.petercollingridge.co.uk/python-bioinformatics-tools/fasta-parser有一个简单的 Python 脚本,用于读取 FASTA 文件并将其转换为以标题行(以 > 开头)作为键的字典。我在你的例子中没有看到那些。如何区分文件中的标题和序列内容?

https://gamma2.wordpress.com/2014/01/03/reading-a-fasta-file-with-python/提供编写上述相同类型脚本的分步说明。很容易为包含“假设蛋白质”的 header 添加过滤,跳过散列并根据 header 是否匹配将 header +序列输出写入两个不同的文件。

对于 Ruby,bioruby 类 Bio::Sequence::Common 和 Bio::FastaFormat 具有很酷的功能。第一个是带有 toFasta 方法的 mixin,用于以 FASTA 格式编写 Bio::Sequence 对象。第二个可以将 FASTA 文件读取为 Bio::Sequence 对象,并且有 7 个与 FASTA header (定义行)相关的方法和 6 个用于序列的方法。参见 http://bioruby.open-bio.org/rdoc/Bio/Sequence/Common.htmlhttp://bioruby.open-bio.org/rdoc/Bio/FastaFormat.html两个示例程序都从 http://bioruby.open-bio.org/wiki/SampleCodes#How_do_I_write_Sequences_in_Fasta_format.3F 开始.

关于python - 我可以用来从一组蛋白质中分离假设蛋白质的命令?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30970109/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com