gpt4 book ai didi

algorithm - 自然语言 CFG 生成器算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:12:11 26 4
gpt4 key购买 nike

我从事自然语言处理项目。它旨在为阿拉伯语建立图书馆。我们正在研究词性标注器,现在我正在考虑语法阶段。由于阿拉伯语和许多其他语言具有复杂的语法,因此很难构建它们的上下文无关语法 (CFG)。出于这个原因,我想到了一种算法,可以使用无监督学习为来自标注器语料库的任何语言构建 CFG(具有概率 PCFG)。为了解释该算法,假设我将这三个标记语句作为输入:1- 动词名词2- 动词名词主语3- 动词名词主语副词该算法给出:1) A--> 动词名词2) B-->A 主题3) C-->B 副词。
我们对每个语句重复此方法,以便我们可以完成特定的 PCFG。该算法的主要功能在于超越了看到整个陈述的事实,因此概率可以是有条件的并且是特定的。之后,可以应用 CKY 算法使用概率为新语句选择最佳树。您认为这个算法好不好,是否值得继续改进。

最佳答案

我为我的理学硕士做了类似的事情。论文 - 学习 CFG 规则(无概率)使用部分语法和 POS 标记。请参阅我对 this question 的回答有关学习 PCFG 的引用列表。一种方法是学习词汇化语法,其中包括单词信息和节点名称。

如果没有上下文,很难回答您的问题:您认为什么是好的算法?一个提供足够好的语言模型的模型?这最小化了统计指标?这样够高效吗?

考虑到阿拉伯语丰富的词法,也许您可​​以将词法添加到您的语法中 - 例如向其添加性别和数字协议(protocol)功能。

关于algorithm - 自然语言 CFG 生成器算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1413219/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com