- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我已经开始研究 Moses,并尝试制作我认为会是相当标准的基线系统。 the steps described on the website我基本都关注了,但我没有使用 news-commentary
,而是使用了 Europarl v7 用于训练,带有 WMT 2006 开发集和原始的 Europarl 通用测试。我的想法是做类似于 Le Nagard & Koehn (2010), 的事情。他们在他们的基线英法系统中获得了 0.68 的 BLEU 分数。
总而言之,我的工作流程大致是这样的:
tokenizer.perl
一切lowercase.perl
(而不是 truecase
)clean-corpus-n.perl
train-model.perl
完全按照描述mert-moses.pl
使用 WMT 2006 dev最终的 BLEU 分数是 0.26...这引出了两个问题:
最佳答案
首先说明一下:您所指的 .68 与 BLEU 无关。
My idea was to do something similar to Le Nagard & Koehn (2010), who obtained a BLEU score of .68 in their baseline English-to-French system.
您引用的文章仅指出 68% 的代词(使用共同引用解析)被正确翻译。它无处提到获得了 .68 BLEU 分数。事实上,没有给出分数,可能是因为论文提出的定性改进无法用统计显着性来衡量(如果你只改进少量单词,这种情况会经常发生)。为此,本文仅对代词进行人工评估:
A better evaluation metric is the number of correctly translated pronouns. This requires manual inspection of the translation results.
这就是 .68 发挥作用的地方。
现在回答您关于您获得的 .26 的问题:
Is this a typical BLEU score for this kind of baseline system? I realise Europarl is a pretty small corpus to train a monolingual language model on, even though this is how they do things on the Moses website.
是的。您可以在这里找到 WMT 语言对的性能 http://matrix.statmt.org/
Are there any typical pitfalls for someone just starting with SMT and/or Moses I may have fallen in? Or do researchers like Le Nagard & Koehn build their baseline systems in a way different from what is described on the Moses website, for instance using some larger, undisclosed corpus to train the language model?
我假设您已正确训练您的系统。关于“未公开的语料库”问题:学术界成员通常会为每个实验说明哪些数据集用于训练测试和调整,至少在同行评审的出版物中是这样。唯一的异常(exception)是 WMT 任务(参见示例 http://www.statmt.org/wmt14/translation-task.html),如果系统参与无约束轨道,则可以使用私有(private)语料库。但即便如此,人们还是会提到他们使用了额外的数据。
关于corpus - 为什么使用 Europarl 的 Moses 表现如此糟糕?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30087277/
是否有 Moses 的moses.ini 格式的文档?在不带参数的命令行中运行 Moses 会返回可用的功能名称,但不会返回其可用的参数。另外,我看到的手册中并没有指定.ini文件的结构。 最佳答案
我需要使用 MOSES 创建一个印地语到英语的翻译系统。我有一个平行语料库,其中包含大约 10000 个印地语句子和相应的英语翻译。我按照 Baseline system creation page
我已按照描述的步骤在我的机器(Windows 7 64 位)上成功编译了 Moses (v0.91) here .但是,当我第一次尝试通过在 cygwin 中运行此命令来运行它时: cd ~/mose
我当时使用的是 mosesserver 0.91,一切正常,但现在有了 1.0 版,一切都和以前不一样了。 这是我的情况: 我想要从阿拉伯语到英语和从英语到阿拉伯语的多语言翻译。我拥有的所有数据和配置
这是关于统计机器翻译系统的源码Moses .在 Mosesdecoder project, 的 Factor 类中关键字 mutable 的奇怪用法: class Factor { __SOM
我已经开始研究 Moses,并尝试制作我认为会是相当标准的基线系统。 the steps described on the website我基本都关注了,但我没有使用 news-commentary,
Moses Tokenizer是广泛应用于机器翻译和自然语言处理实验的分词器。 有一行正则表达式检查: if (($pre =~ /\./ && $pre =~ /\p{IsAlpha}/) ||
我必须实现机器翻译系统,因此我计划使用 moses,但在 Cygwin 上执行 make 命令时遇到以下错误: Administrator@diebold-69b7050 /cygdrive/c/JT
我是一名优秀的程序员,十分优秀!