perl - perl脚本的并行化-6ren

perl - perl脚本的并行化

转载作者：行者123 更新时间：2023-12-02 04:56:49

26

4

我有一个要并行化的 perl 脚本。

它由一个 while 循环组成，在另一个 3400 行的 while 循环中包含超过 11000 行，这使得它非常慢。

open (FILE1, "File1.txt") or die "Can't open File1";
open (OUT, ">Outfile.txt");

while (<FILE1>)
{ 
 my @data=split (/ /, $_);
 my $RS=1;
 open (FILE2, "File2.txt") or die "Can't open File2";
 while (<FILE2>)
 { 
  my @value=split (/ /, $_);
  if ($data[$RS] == 1) {print OUT $value[1];$RS++;}
  elsif ($data[$RS] == 2) {print OUT $value[2];$RS++;}
  elsif ($data[$RS] == 0) {print OUT $value[3];$RS++;}
 }
 close FILE2;

}

我正在寻找一种方法来对 File1 的每一行执行与 qsub 等效的操作，这样我就可以发送 3440 个作业。有什么建议么？如果可能的话，我想继续使用 perl。我试图将此代码插入 bash 脚本中，但我真的不明白如何将一种语言插入另一种语言中。

我的 File1 包含 ID 列表，列中有信息。然后每一列都与 File2 中的一行相关。我希望能够同时为多个 ID 运行第二个循环，而不是一个接一个地运行。

File1
ID     RS_10    RS_15    RS_30
23     1        0        1
34     2        2        0
45     1        1        0
23     0        0        2
10     2        1        1


File2
RS_10 A B C
RS_15 D E F
RS_30 G H I

最佳答案

优化的第一条规则是不要过早进行优化(即在不分析代码的情况下跳到过早的结论)。

第二条规则可能是指缓存。

您的 File2 不是很大。我会说我们将它加载到内存中。这具有以下优点:

我们只进行一次解析。
文件不大，所以空间不是问题。
我们可以创建一个数据结构，使查找变得非常简单。

关于第一点:您将每行拆分了三千多次。这些周期本可以更好地利用。

关于第三点:您似乎进行了索引转换:

1 → 1, 2 → 2, 0 → 3

我们可以使用执行此转换的数组(恒定时间查找)，而不是使用 if/elsif 开关(线性复杂度)测试所有值:

my @conversion = (3, 1, 2);
...;
print OUT $value[$conversion[$data[$RS++]]];

如果这个索引转换是常量，我们可以在解析 File2 时只做一次。这看起来像

use strict; use warnings;
use autodie; # automatic error handling

my @file2;
{
  open my $file2, "<", "File2.txt";
  while (<$file2>) {
    my (undef, @vals) = split;

    # do the reordering. This is equivalent to @vals = @vals[2, 0, 1];
    unshift @vals, pop @vals;

    push @file2, \@vals;
  }
}

现在我们可以继续遍历 File1。从 File2 打印相应的条目现在看起来像

open my $file1, "<", "File1.txt";
<$file1>; # remove header
while (<$file1>) {
  my ($id, @indices) = split;
  print $id, map $file2[$_][$indices[$_]], 0 .. $#indices;
  # but I guess you'd want some separator in between
  # If so, set the $, variable
}

这个算法仍然是二次算法(map 只是一个伪装的 for 循环)，但是它应该有一个更好的常数因子。根据您的示例输入，上述代码的输出是

23 A F G
34 B E I
45 A D I
23 C F H
10 B D G

(使用 $, = ""; $\= "\n")。

从这里去哪里

最后一步(循环通过 File1)可以并行化，但这不太可能有多大帮助:IO 很慢，线程之间的通信很昂贵(IPC 更是如此)，并且输出会顺序随机。我们可以派生一堆 worker ，并在队列中传递未解析的行:

use threads; # should be 1st module to be loaded
use Thread::Queue;
use constant NUM_THREADS => 4; # number of cores

# parse the File2 data here

my $queue = Thread::Queue->new;
my @threads = map threads->new(\&worker), 1 .. NUM_THREADS;

# enqueue data
$queue->enqueue($_) while <$file1>;
# end the queue
$queue->enqueue((undef) x NUM_THREADS); # $queue->end in never versions

# wait for threads to complete
$_->join for @threads;

sub worker {
  while(defined(my $_ = $queue->dequeue)) {
    my ($id, @indices) = split;
    print $id, map $file2[$_][$indices[$_]], 0 .. $#indices;
  }
}

请注意，这会将 @file2 复制到所有线程中。有趣的事实:对于示例数据，此线程解决方案大约需要 4 倍的时间。这主要是线程创建的开销，因此这对您的数据来说不是什么问题。

无论如何，剖析您的代码以查看您可以最有效地优化的地方。我推荐优秀的Devel::NYTProf .例如。对于我使用非常有限的数据运行的非线程测试，autodie 和 friend 隐含的开销比实际处理所用的时间更多。对你来说，最昂贵的线路可能是

  print $id, map $file2[$_][$indices[$_]], 0 .. $#indices;

但在 Perl 中我们无能为力。

关于perl - perl脚本的并行化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17839123/

26

4

0

文章推荐： java - 从 XSLT 中排除处理指令

perl - Perl 程序如何知道在哪里可以找到包含它使用的 Perl 模块的文件？
如果我的 Perl 程序使用 Perl 模块，它将如何确定在哪里可以找到包含模块代码的文件？例如，如果程序包含: use MyModule1; # Example 1 us
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 在不损失精度的情况下在 perl 中读取和存储数字 (Perl)
我在一个文件中有一些不同格式的数字:8.3、0.001、9e-18。我正在寻找一种简单的方法来读取它们并存储它们而不会损失任何精度。这在 AWK 中很容易，但在 Perl 中是如何完成的呢？我只愿意使
perl - 'perl' 不被识别为外部或内部命令 *帮助配置草莓 perl!*
我正在自学 Perl，并且在我的 Windows 8 64 位系统上安装了 Strawberry。 Strawberry 命令行似乎工作正常，我在 C 驱动器上的 Strawberry 文件夹中创建了
perl - 开发 Perl 和测试 Perl
我在 Perl 模块 IO::Socket::SSL 中发现了一个错误，我可能会修复它，但是，我担心测试修复。我从 Debian 下载了源码包(因为我打算为它制作一个 Debian 包或补丁)并查看了
perl - 如何从一个 perl 模块调用子程序到另一个 perl 模块？
我有一个 perl 文件，它使用了两个 perl 模块 A.pm 和 B.pm。但是在 B.pm 中我需要调用 A.pm 的子程序。即使我在 A.pm 中使用并尝试使用它，我仍然遇到未定义的错误。
perl - 在 Perl 运行时自动加载 perl 模块
有没有办法在 Perl 运行时加载整个模块？我原以为我用 autouse 找到了一个很好的解决方案，但以下代码无法编译: package tryAutouse2; use autouse 'tryAu
perl - 与 Perl 模块相比，Perl 程序是否有标准或最佳实践？
过去，我编写过许多 perl 模块，以及不止一些独立的 perl 程序，但我之前从未发布过多文件 perl 程序。我有一个几乎处于 beta 阶段的 perl 程序，它将被开源发布。它需要一些数据文
perl - 从不同的 perl 脚本访问 perl 子例程
我有 1 个 perl 脚本，我们在其中编写了几个子例程。例子: # Try_1.pl main(); sub main{ --- --- check(); } check { -- --} 现在，
perl - 阻止 Perl XS 模块默默地退回到纯 perl
似乎 CPAN 上的一些(很多？)模块部分是使用 XS 在 C 中实现的，如果需要，可以回退到纯 perl 实现。虽然这很聪明，但它显然会损害性能，我想知道它是否会发生，以便我可以解决问题。有没有一
perl - 在 perl 中自动安装 perl 依赖项
我对 perl 很陌生。我希望我可以从 perl 安装一些软件包，我这样做是这样的: perl -MCPAN -e 'install VM::EC2' 我猜它由于依赖而失败，它显示: Result:
perl - 如何编写 Perl 脚本来提取 Perl 包中每个子程序的源代码？
给定一个 Perl 包 Foo.pm，例如 package Foo; use strict; sub bar { # some code here } sub baz { # more
perl - 如何美化 Perl 生成的 Perl 代码？
我有一个用 Perl 编写的测试生成器。它生成连接到模拟器的测试。这些测试本身是用 Perl 编写的，并通过其 API 连接到模拟器。我希望生成的代码是人类可读的，这意味着我希望它能够正确缩进和格式化
perl - "perl"和 "perl -w"之间的区别？
我正在学习 Perl，非常新的用户。我可以知道这些 Perl 代码之间有什么区别吗？ #!/usr/bin/perl & #!/usr/bin/perl -w 最佳答案那不是 perl 代码，它是
perl - 如何使用多个版本的 Perl 在 Perl 模块中安装脚本？
我不认为这是一个重复的问题。这专门针对 Perl 模块附带的脚本。通常，在安装多个 Perl 版本时，您可以将 perl 可执行文件标记为版本号 (perl5.32)，这样它们就可以在 /whate
perl - 从 Perl 中的字符串执行整个 perl 程序
我有一个在文件中使用 Blowfish 加密的程序和第二个 perl 程序，它提示输入用于将其解密为字符串的密码，我希望不必将解密的源代码写入硬盘驱动器，尽管将它放在内存中并不是真正的问题，因为运行程
perl - Perl 6 的这一侧是否有针对惰性列表的 Perl 解决方案？
有没有人为 Perl 中的惰性求值列表找到了一个好的解决方案？我尝试了很多方法来改变类似的东西 for my $item ( map { ... } @list ) { } 进入懒惰的评估——例如，通
perl - 如何从 perl 脚本本身打印出正在运行的 perl 版本？
我安装了多个版本的 Perl。我已经指定了要使用的版本。但是为了验证，我想从 .pl 脚本本身输出 Perl 的版本。这可能吗？在 Perl 脚本中解析“perl --version”的输出似乎
perl - 如何打包我的 Perl 脚本以在没有 Perl 的机器上运行？
人们还经常问“我怎样才能编译 Perl？”而他们真正想要的是创建一个可以在机器上运行的可执行文件，即使他们没有安装 Perl。我知道有几种解决方案: perl2exe靛蓝之星它是商业的。我从未尝试
perl - 什么是对非 Perl 开发人员的有效 Perl 培训？
关闭。这个问题是opinion-based .它目前不接受答案。想改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 8年前关闭。 Improve this

首页

博学

6Ren·AI

商城

perl - perl脚本的并行化

从这里去哪里