gpt4 book ai didi

python - 水平和垂直标记

转载 作者:行者123 更新时间:2023-11-30 23:39:24 24 4
gpt4 key购买 nike

我有一个句子以及树形形式的语法。我需要从中训练概率上下文无关语法,以便我可以为其提供最佳的解析。我使用 Viterbi CKY 算法来获得最佳解析。这些句子采用以下树形格式:(TOP(S(NP(DT))(NN航类))(VP(MD应)(VP(VB应)(NP(NP(CD十一)(RB上午))(NP(NN明天))))) ) (PUNC .))

我构建了一个系统,该系统从 Penn Treebank 的 ATIS 部分学习了概率语法,现在可以为上述句子提供可能的解析输出。

我读到了水平和垂直标记技术,这些技术可以通过使用注释来帮助提高准确性。我对它们的工作原理有点困惑。有人可以指导我一些解释性示例或说明它们如何工作以及它们如何影响准确性。

最佳答案

值得一看 Klein 和 Manning 的这篇论文:

http://nlp.stanford.edu/~manning/papers/unlexicalized-parsing.pdf

垂直马尔可夫化是一种为给定规则提供上下文的技术。来自上述论文:

For example, subject NP expansions are very different from object NP expansions: a subject NP is 8.7 times more likely than an object NP to expand as just a pronoun. Having separate symbols for subject and object NPs allows this variation to be captured and used to improve parse scoring. One way of capturing this kind of external context is to use parent annotation, as presented in Johnson (1998). For example, NPs with S parents (like subjects) will be marked NPˆS, while NPs with VP parents (like objects) will be NPˆVP.

通过使用此附加父注释重写这些规则,我们将添加有关您正在重写的规则的位置的信息,并且此附加信息提供了特定规则重写的更准确的概率。

这个的实现非常简单。使用训练数据,从底部非终结符开始(这些是重写为 DT、NNP、NN、VB 等终结符的规则)并附加一个 ^ 后跟其父非终结符。在您的示例中,第一次重写将是 NP^S,依此类推。继续沿树向上,直到到达顶部(您不会重写)。在你的情况下,最终重写将是 S^TOP。去掉输出中的标签将为您提供最终的解析树。

至于水平马尔可夫化,请参阅此线程进行很好的讨论: Horizontal Markovization .

关于python - 水平和垂直标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13580881/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com