gpt4 book ai didi

用于对齐语料库的 Perl 脚本

转载 作者:行者123 更新时间:2023-12-02 17:39:54 24 4
gpt4 key购买 nike

所以我想弄清楚这个 perl 脚本的作用。

use FindBin qw($Bin);
use strict;
use Encode;

binmode(STDIN, ":utf8");
binmode(STDOUT, ":utf8");
binmode(STDERR, ":utf8");

chdir($Bin);
my $dir = "txt";
my $outdir = "aligned";
my $preprocessor = "$Bin/tools/split-sentences.perl -q";

my ($l1,$l2) = @ARGV;
die unless -e "$dir/$l1";
die unless -e "$dir/$l2";

`mkdir -p $outdir/$l1-$l2/$l1`;
`mkdir -p $outdir/$l1-$l2/$l2`;

my ($dayfile,$s1); # globals for reporting reasons
open(LS,"ls $dir/$l1|");
while($dayfile = <LS>) {
chop($dayfile);
if (! -e "$dir/$l2/$dayfile") {
print "$dayfile only for $l1, not $l2, skipping\n";
next;
}
&align();
}

从这个我需要运行

perl sentence-align-corpus.perl europarlEnglishCorpus.txt europarlSpanishCorpus.txt

这两个文件位于 txt 文件夹中。

运行上面的代码会得到

txt/europarlEnglishCorpus.txt only for europarlEnglishCorpus.txt, not europarlSpanishCorpus.txt, skipping

并且不对齐句子,它只是创建目录。看起来 if 被触发了,但我不确定它会做什么。

这个脚本是做什么的?

最佳答案

程序假定以下输入与 .pl 文件位于同一目录中

txt/
lang-a/
day-1
day-2
lang-b/
day-1
day-2
lang-c/
day-1
day-2

然后你运行它作为

./sentence-align-corpus.perl lang-a lang-b

我假设 http://www.statmt.org/europarl/ 中提到的文件下载下可能会有兴趣。

这个网站上有指针。这些可能有帮助,也可能没有帮助,但我希望您在向 SO 寻求帮助之前阅读这些内容。

For a detailed description of this corpus, please read:

  • Europarl: A Parallel Corpus for Statistical Machine Translation, Philipp Koehn, MT Summit 2005, pdf.

  • Please cite the paper, if you use this corpus in your work. See also the extended (but earlier) version of the report (ps, pdf).

我坚持我最初的建议,通过电子邮件发送网站上给出的地址,并寻求更好的说明,了解您还需要下载什么(如果有的话)、如何运行它以及它的目标是什么。

关于用于对齐语料库的 Perl 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22061338/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com