- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个用 Python 编写的巨大管道,它使用非常大的 .gz 文件(压缩后约 14GB),但需要一种更好的方法来将某些行发送到外部软件(formatdb from blast-legacy/2.2.26)。我有一个很久以前有人为我写的 Perl 脚本,它可以非常快地执行此操作,但我需要在 Python 中做同样的事情,因为管道的其余部分是用 Python 编写的,我必须保持这种方式。 Perl 脚本使用两个文件句柄,一个用于保存 .gz 文件的 zcat,另一个用于存储软件需要的行(每 4 行中的 2 行)并将其用作输入。它涉及生物信息学,但不需要经验。文件是fastq格式,软件需要是fasta格式。每 4 行是一个 fastq 记录,取第 1 行和第 3 行并在第 1 行的开头添加“>”,这是 formatdb 软件将用于每条记录的 fasta 等价物。
perl脚本如下:
#!/usr/bin/perl
my $SRG = $ARGV[0]; # reads.fastq.gz
open($fh, sprintf("zcat %s |", $SRG)) or die "Broken gunzip $!\n";
# -i: input -n: db name -p: program
open ($fh2, "| formatdb -i stdin -n $SRG -p F") or die "no piping formatdb!, $!\n";
#Fastq => Fasta sub
my $localcounter = 0;
while (my $line = <$fh>){
if ($. % 4==1){
print $fh2 "\>" . substr($line, 1);
$localcounter++;
}
elsif ($localcounter == 1){
print $fh2 "$line";
$localcounter = 0;
}
else{
}
}
close $fh;
close $fh2;
exit;
效果非常好。我怎么能在 Python 中做同样的事情呢?我喜欢 Perl 如何使用这些文件句柄,但我不确定如何在不创建实际文件的情况下在 Python 中执行此操作。我所能想到的就是 gzip.open 文件并将我需要的每条记录的两行写入一个新文件并将其与“formatdb”一起使用,但它太慢了。有任何想法吗?我需要将它处理到 python 管道中,所以我不能只依赖 perl 脚本,我也想知道一般情况下如何做到这一点。我假设我需要使用某种形式的子流程模块。
这是我的 Python 代码,但它又是变慢的方式,速度是这里的问题(巨大的文件):
#!/usr/bin/env python
import gzip
from Bio import SeqIO # can recognize fasta/fastq records
import subprocess as sp
import os,sys
filename = sys.argv[1] # reads.fastq.gz
tempFile = filename + ".temp.fasta"
outFile = open(tempFile, "w")
handle = gzip.open(filename, "r")
# parses each fastq record
# r.id and r.seq are the 1st and 3rd lines of each record
for r in SeqIO.parse(handle, "fastq"):
outFile.write(">" + str(r.id) + "\n")
outFile.write(str(r.seq) + "\n")
handle.close()
outFile.close()
cmd = 'formatdb -i ' + str(tempFile) + ' -n ' + filename + ' -p F '
sp.call(cmd, shell=True)
cmd = 'rm ' + tempFile
sp.call(cmd, shell=True)
最佳答案
首先,在 Perl 和 Python 中都有一个更好的解决方案:只需使用 gzip
库。在 Python 中,有一个 in the stdlib ;在 Perl 中,您可以在 CPAN 上找到一个。例如:
with gzip.open(path, 'r', encoding='utf-8') as f:
for line in f:
do_stuff(line)
比 zcat
更简单、更高效、更便携。
但是如果你真的想在 Python 中启动一个子进程并控制它的管道,你可以使用 subprocess
来完成。模块。而且,与 perl 不同的是,Python 无需在中间插入一个 shell 就可以做到这一点。在 Replacing Older Functions with the subprocess
Module 上的文档中甚至有一个很好的部分给你食谱。
所以:
zcat = subprocess.Popen(['zcat', path], stdout=subprocess.PIPE)
现在,zcat.stdout
是一个类似文件的对象,具有通常的read
方法等,将管道包装到 zcat
子流程。
因此,例如,要在 Python 3.x 中一次读取一个 8K 的二进制文件:
zcat = subprocess.Popen(['zcat', path], stdout=subprocess.PIPE)
for chunk in iter(functools.partial(zcat.stdout.read, 8192), b''):
do_stuff(chunk)
zcat.wait()
(如果您想在 Python 2.x 中执行此操作,或者一次读取一个文本文件而不是一次读取一个 8K 的二进制文件,或者其他任何更改,则更改与它们相同任何其他文件处理编码。)
关于Python 等效于管道 zcat 结果到 Perl 中的文件句柄,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30062482/
如果我的 Perl 程序使用 Perl 模块,它将如何确定在哪里可以找到包含模块代码的文件? 例如,如果程序包含: use MyModule1; # Example 1 us
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易,但在 Perl 中是如何完成的呢?我只愿意使
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易,但在 Perl 中是如何完成的呢?我只愿意使
我正在自学 Perl,并且在我的 Windows 8 64 位系统上安装了 Strawberry。 Strawberry 命令行似乎工作正常,我在 C 驱动器上的 Strawberry 文件夹中创建了
我在 Perl 模块 IO::Socket::SSL 中发现了一个错误,我可能会修复它,但是,我担心测试修复。我从 Debian 下载了源码包(因为我打算为它制作一个 Debian 包或补丁)并查看了
我有一个 perl 文件,它使用了两个 perl 模块 A.pm 和 B.pm。 但是在 B.pm 中我需要调用 A.pm 的子程序。即使我在 A.pm 中使用并尝试使用它,我仍然遇到未定义的错误。
有没有办法在 Perl 运行时加载整个模块?我原以为我用 autouse 找到了一个很好的解决方案,但以下代码无法编译: package tryAutouse2; use autouse 'tryAu
过去,我编写过许多 perl 模块,以及不止一些独立的 perl 程序,但我之前从未发布过多文件 perl 程序。 我有一个几乎处于 beta 阶段的 perl 程序,它将被开源发布。它需要一些数据文
我有 1 个 perl 脚本,我们在其中编写了几个子例程。例子: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} 现在,
似乎 CPAN 上的一些(很多?)模块部分是使用 XS 在 C 中实现的,如果需要,可以回退到纯 perl 实现。虽然这很聪明,但它显然会损害性能,我想知道它是否会发生,以便我可以解决问题。 有没有一
我对 perl 很陌生。我希望我可以从 perl 安装一些软件包,我这样做是这样的: perl -MCPAN -e 'install VM::EC2' 我猜它由于依赖而失败,它显示: Result:
给定一个 Perl 包 Foo.pm,例如 package Foo; use strict; sub bar { # some code here } sub baz { # more
我有一个用 Perl 编写的测试生成器。它生成连接到模拟器的测试。这些测试本身是用 Perl 编写的,并通过其 API 连接到模拟器。我希望生成的代码是人类可读的,这意味着我希望它能够正确缩进和格式化
我正在学习 Perl,非常新的用户。我可以知道这些 Perl 代码之间有什么区别吗? #!/usr/bin/perl & #!/usr/bin/perl -w 最佳答案 那不是 perl 代码,它是
我不认为这是一个重复的问题。这专门针对 Perl 模块附带的脚本。 通常,在安装多个 Perl 版本时,您可以将 perl 可执行文件标记为版本号 (perl5.32),这样它们就可以在 /whate
我有一个在文件中使用 Blowfish 加密的程序和第二个 perl 程序,它提示输入用于将其解密为字符串的密码,我希望不必将解密的源代码写入硬盘驱动器,尽管将它放在内存中并不是真正的问题,因为运行程
有没有人为 Perl 中的惰性求值列表找到了一个好的解决方案?我尝试了很多方法来改变类似的东西 for my $item ( map { ... } @list ) { } 进入懒惰的评估——例如,通
我安装了多个版本的 Perl。 我已经指定了要使用的版本。但是为了验证,我想从 .pl 脚本本身输出 Perl 的版本。 这可能吗? 在 Perl 脚本中解析“perl --version”的输出似乎
人们还经常问“我怎样才能编译 Perl?”而他们真正想要的是创建一个可以在机器上运行的可执行文件,即使他们没有安装 Perl。 我知道有几种解决方案: perl2exe靛蓝之星 它是商业的。我从未尝试
关闭。这个问题是opinion-based .它目前不接受答案。 想改进这个问题?更新问题,以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this
我是一名优秀的程序员,十分优秀!