- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我在 fasta 中有一个包含 5000 个蛋白质序列的大文件,其中有假设蛋白质和功能蛋白质,我如何将假设蛋白质与假定蛋白质分开。所以基本上假设的蛋白质在它们的标题中都有假设这个词所以我希望我可以使用一些命令来分离它们。有谁知道执行此操作的 python 或 linux 命令?像这样的东西
vir0002 BASYS00002, 605-1000 (Clockwise) MobC Protein MPKPASDGAGSGCHVQAGVTSLPTEYPFDRRKSRMARTQTFTQEQLDKTKQALSELPDLS RNKIAKADFLESLKDQIVLLANTKGYSPAEIKSALAQVNVTVSVKSIADLLNTQGKRQPR KSADKKSNPTQ vir003 yubP, 2257-1421 (CounterClockwise) UPF0380 protein yubP MQFSNSVRGPNMLRADHPLSNEQIASVAPSIFAAEAYESRSERYLYIPTVEVLDALREEG FEPFMASQTRVRNAGKIEHTKHMLRLRHSSSIMDKEADEIILLNSHDGSSSYQMMAGVFR FVCQNGLVIGDRSFDQKIRHSGNDDIKSDVIEGAYEVLDQFKAMSEQKECMKQIKLCADE QEAFATAALSYRYDPQEGPAPVTARQLLSPRRVEDYENDLWTTFNRIQENSIKGGLRGRN KSGRRATTRSVSGIDQDVKLNRALWTLAQELRGHLTTA vir004 BASYS00004, 3593-2535 (CounterClockwise) Nuclease MHELSAEAASQLEALEKELESVQATIESLSDQDSEQSKALDIREDELEDEISKIQKSREG FALEVMPHAGAVISYYYGDLRINRGMVRTADRESVNAVLGEGERLAGGRETESAGRKSNT ISDALRRSLLGHRNLAAQFVTAANPKAAKMLIVCKWISDTRRNWSATPTDLSIGNGYGAR TGCPITDEAGRVREEEFVALGELLIEGLPTEYGDLWDALAALSEAEIDKLLAFAVARSVS LAVEDNVLSKKYVQTLGMKMEDHFVPTVGNYLGRVSKELIIEALKEARKIQSDEDQVTLL AMKKGALAAEAETRLMGTGWVPAEIATKPEELAQEKNSKKKKNSSKPATGKA vir005 yubM, 4624-3506 (CounterClockwise) Uncharacterized protein yubM MSLHVVTLMCVECITIPSALHRHRCPIRAAATAPGLPCRGFYMSNAYNTVVPFNRLRRSE ENVRRTGRASAHYKAGIKKLAASILSTHKQTGQGLLQNLVVHVNGENFDVAAGGRRYDAV SLLIEEGEFQADYPTACLVIDADAVTAASLTENVSREAMHPADELDAFKALTEQGWTIDS IPDSFGVTALVVERRLKVRAAAPALIEEYRLGALTTDQLIALCATDDHDRQLEVWNRLRQ QHWNNDPATLRRAVIKTEVESNDKRVTFIGGVEVYEAAGGEVRRDLFAEDGQGAFLSDSA LLDVLVETKLQEVGEQVRAEGWGWIEVWQQFDHTHTVWATHRRSCMSCQPKQLVSLKHWK RSLRAYRPPLRA vir006 BASYS00006, 5844-5293 (CounterClockwise) Hypothetical Protein PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA
我希望有两个文件一个包含
vir006 BASYS00006, 5844-5293 (CounterClockwise) Hypothetical Protein PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA and the other containing the rest of the protein sequences
最佳答案
Biopython 有一个 FASTA 解析器,它应该能够做你想做的事。获取和使用说明位于 http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc11。 .
在 http://www.petercollingridge.co.uk/python-bioinformatics-tools/fasta-parser有一个简单的 Python 脚本,用于读取 FASTA 文件并将其转换为以标题行(以 > 开头)作为键的字典。我在你的例子中没有看到那些。如何区分文件中的标题和序列内容?
https://gamma2.wordpress.com/2014/01/03/reading-a-fasta-file-with-python/提供编写上述相同类型脚本的分步说明。很容易为包含“假设蛋白质”的 header 添加过滤,跳过散列并根据 header 是否匹配将 header +序列输出写入两个不同的文件。
对于 Ruby,bioruby 类 Bio::Sequence::Common 和 Bio::FastaFormat 具有很酷的功能。第一个是带有 toFasta 方法的 mixin,用于以 FASTA 格式编写 Bio::Sequence 对象。第二个可以将 FASTA 文件读取为 Bio::Sequence 对象,并且有 7 个与 FASTA header (定义行)相关的方法和 6 个用于序列的方法。参见 http://bioruby.open-bio.org/rdoc/Bio/Sequence/Common.html和 http://bioruby.open-bio.org/rdoc/Bio/FastaFormat.html两个示例程序都从 http://bioruby.open-bio.org/wiki/SampleCodes#How_do_I_write_Sequences_in_Fasta_format.3F 开始.
关于python - 我可以用来从一组蛋白质中分离假设蛋白质的命令?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30970109/
我在尝试使用 jpa2.0 将包含持久实体和分离实体(新创建的实体)的实体列表更新到我的数据库中时遇到错误。 我的实体包含在合并数据时出现错误(在标题中提到)的内部实体: Class supercla
我在分层 Pane 中有一组面板。我需要一个分隔符来将 sideBar 与 topBar 和 tabbedPanel 分开。我留了一个 10 像素的缓冲区来放置它。不幸的是,可能由于它是 JLayer
在我从数据库中读取的代码中,我还使用自定义适配器打印出每一行,该行中有一个 texttview、2 个按钮和一个 edittext。这一切都很好,但是当按下按钮时,edittext 会递增或递减,有没
我有一个由 Hibernate 4.3.4 管理的实体,它有一个其他实体的一对多集合。 在我的处理过程中,我必须分离父实体(将分离级联到子列表)。但是,当我向列表中添加一个尚未持久化的新项目并执行分离
我想追加一行,该行应该是表格的最后一行。在我的代码中,它似乎在第一次动态添加行时起作用。但是当添加其他行时它不会成为最后一行。 我总是希望“subtot”行成为最后一行,但是当我追加其他行时,它不
我试图用它们之间的空格分隔这 2 个 div(请参见图 1)。问题是当我添加边距或填充时会发生这种情况(请参见图 2)。 这是我的代码,请注意我没有使用 Bootstrap: .row { mar
我的服务器包含一些 ServerActor。该 actor 接收 RegisterClient 消息并将 ActorRefs 添加到已注册客户端列表中。 我还有多个客户端,每个客户端都包含 Clien
假设我有一个需要两个参数的函数,并且参数的顺序会影响结果。 是否可以将第一个参数传递给 partial 或 comp 函数,然后将另一个参数传递给它,如下所示: (defn bar [arg1 arg
如何搜索和分离多个后代键。 例子: (def d {:foo 123 :bar { :baz 456 :bam { :w
我正在尝试为 Slick 表创建一个类型安全的动态 DSL,但不确定如何实现这一点。 用户可以通过以 form/json 格式发送过滤器来将过滤器发布到服务器,我需要使用所有这些来构建一个 Slick
我是新来的,我发现看到充满大量函数和变量初始化以及 UI 的组件时眼睛很痛。是否可以将它们分开? 而不是默认设置,如下所示。如何将业务逻辑分离到另一个文件中? function MyComponent
我试图通过将参数粘贴在一起来使用分离。这应该是一件容易的工作,但不适合我。当我想到使用 eval(parse()) 时,我知道是时候寻求帮助了 通常,如果我加载一个包,我可以按如下方式分离它: det
(dissoc :a m)允许我解除给定的键。但是,有没有办法使用谓词函数来分离 pred 为真的任何键? (dissoc-with-pred pred? m) 所以给了一张 map - {:a 2
我编写了一个使用 devtools 来包含内部数据的包: devtools::use_data(.data, internal = T, overwrite = T) 我最近更改了该数据并重建了包。我
所以我有一个脚本,我想在我的服务器上运行它而不会打扰我。所以我想我会在 tmux 窗口中运行服务器,然后 detach这样我就可以简单地 attach如果我想查看进度(此脚本需要数天才能运行)。 但是
ThreeJS中动画数据和模型数据是否可以解耦? 这样就可以交换模型并保留动画?我认为这可能非常强大 我知道如何在 ThreeJS 中做到这一点的方法是将每个动画一个接一个地打包在一个模型中,这似乎是
我有一堆(Ruby)脚本存储在服务器上。到目前为止,我的团队通过打开一个启动脚本名称列表的访问器应用程序来使用它们,然后他们在工作文件夹中的文件上选择要在该实例中运行的脚本。脚本直接从服务器运行,因此
我想知道 javascript 如何包含在 jsp 中 - 我们是否可以在 .js 文件中放置 jsp 能够识别的任何代码,而不仅仅是 javascript 代码? 我有一些常见的 JavaScrip
您是否可以在 Dockerfile 中指定一个选项,默认使用它构建的容器以分离方式运行。 这将导致与 -d 相同的结果: docker run -d 这样 docker run 默认情况下会分离运
我正在为现有的 Java 程序开发 Java 插件。现有程序使用特定版本的 eclipse.uml2.*,我的插件也是如此。不幸的是,我的插件需要更新版本。 为了运行该插件,我需要将其导出到 Jar
我是一名优秀的程序员,十分优秀!