gpt4 book ai didi

alignment - 嘈杂文本语料库中的句子分割和对齐

转载 作者:行者123 更新时间:2023-12-02 05:02:55 26 4
gpt4 key购买 nike

我有一个平行语料库,其中包含大约 100,000 个对齐的阿拉伯语和波斯语段落。

我的语料库是一个嘈杂的语料库,它的段落相互翻译不完整(即,阿拉伯语段落的部分没有翻译成波斯语,标点符号也不匹配)。

为了分段成句,我用了标点符号,但是句数不匹配。

然后,我用Microsoft Aligner来对齐句子,结果真的是错误的。

如何对语料库中的句子进行切分对齐?

最佳答案

您在问题中使用了 Giza++ 标签:您是否考虑过使用那里的对齐工具?我知道很多人使用的另一个选项是 Moses ,这是一个功能齐全的统计 MT 包,但我相信如果这真的是您想要的,您可以单独调用对齐模型。

关于alignment - 嘈杂文本语料库中的句子分割和对齐,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14626185/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com