gpt4 book ai didi

nlp - 阿拉伯语词形还原和斯坦福 NLP

转载 作者:行者123 更新时间:2023-12-04 16:59:51 30 4
gpt4 key购买 nike

我尝试进行词形还原,即识别动词的词形和可能的阿拉伯语词根,例如:
يتصل ==> lemma(动词的不定式)==> اتصل ==> root(三字根/Jidr thoulathi)
==> و ص ل

你认为斯坦福 NLP 能做到吗?

此致,

最佳答案

斯坦福阿拉伯语分段器无法进行真正的词形还原。但是,可以训练一个新模型来执行诸如词干之类的操作:

  • تكتبون ← ت+ كتب +ون
  • يتصل ← ي+ تصل

  • 如果输出是真正的阿拉伯语引理非常重要(“تصل” 不是真正的引理),那么使用像 MADAMIRA ( http://nlp.ldeo.columbia.edu/madamira/ ) 这样的工具可能会更好。

    详细说明:斯坦福阿拉伯语分段器仅使用这些操作(在 edu.stanford.nlp.international.arabic.process.IOBUtils 中实现)逐个字符地生成其输出:
  • 在两个字符之间拆分一个单词
  • 将 lil- (للـ) 转换为 li+ al- (ل+ الـ)
  • 将 ta (ت) 或 ha (ه) 转换为 ta marbuta (ة)
  • 将 ya (ي) 或 alif (ا) 转换为 alif maqsura (ى)
  • 将 alif maqsura (ى) 转化为 ya (ي)

  • 因此,将 يتصل 词形还原为 ي+ اتصل 需要实现一个额外的规则,即在 ya 或 ta 之后插入一个 alif。某些不规则形式的词形还原是完全不可能的(例如,نساء ← امرأة)。

    可供下载的斯坦福分词器版本也只断开代词和粒子:

    وسيكتشفونه ← و+ س+ يكتشفون +ه

    但是,如果您可以访问 LDC 阿拉伯树库或类似丰富的带有形态分割注释的阿拉伯文本源,则可以训练您自己的模型以删除所有形态词缀,这更接近词形还原:

    وسيكتشفونه ← و+ س+ ي+ كتشف +ون +ه

    请注意,“كتشف” 不是真正的阿拉伯语单词,但分割器至少应始终如一地为 تكتشفين ,أكتشف ,يكتشف 等生成“كتشف”。如果这是可以接受的,您将需要更改 ATB 预处理脚本以改为使用形态分割注释。您可以通过替换名为 parse_integrated 的脚本来做到这一点。修改后的版本如下: https://gist.github.com/futurulus/38307d98992e7fdeec0d

    然后按照自述文件中的“培训分段员”的说明进行操作。

    关于nlp - 阿拉伯语词形还原和斯坦福 NLP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29151329/

    30 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com