作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要使用 MOSES 创建一个印地语到英语的翻译系统。我有一个平行语料库,其中包含大约 10000 个印地语句子和相应的英语翻译。我按照 Baseline system creation page 中描述的方法进行操作.但是,就在第一阶段,当我想标记我的印地语语料库并尝试执行
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
,tokeniser 给了我以下输出:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbreviations for language 'hi', attempting fall-back to English version...
我什至尝试使用 'hin'
但它仍然无法识别该语言。谁能告诉翻译系统的正确制作方法。
最佳答案
Moses 不支持印地语标记化,tokenizer.perl
使用 nonbreaking_prefix.*
文件(来自 https://github.com/moses-smt/mosesdecoder/blob/master/scripts/tokenizer/tokenizer.perl#L516)
Moses 提供的带有不间断前缀的语言是:
来自 https://github.com/moses-smt/mosesdecoder/tree/master/scripts/share/nonbreaking_prefixes
然而,所有的希望都没有丢失,在使用 Moses 训练机器翻译模型之前,您肯定可以使用其他分词器对您的文本进行分词,尝试使用谷歌搜索“Hindi Tokenziers”,周围有大量这样的词。
关于hindi - 使用 MOSES 从印地语到英语的统计机器翻译,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27669446/
我是一名优秀的程序员,十分优秀!