gpt4 book ai didi

nlp - 词性标记 : tagging unknown words

转载 作者:行者123 更新时间:2023-12-02 04:58:17 26 4
gpt4 key购买 nike

在词性标注器中,给定句子的最佳可能标签是使用 HMM 确定的

    P(T*) = argmax P(Word/Tag)*P(Tag/TagPrev)
T

但是当“Word”没有出现在训练语料库中时,P(Word/Tag) 对于给定的所有可能标签生成 0,这就没有留下选择最佳标签的空间。

我尝试了几种方法,

1) 为所有未知单词分配少量概率,P(UnknownWord/AnyTag)~Epsilon...意味着通过分配常数概率完全忽略未知单词的 P(Word/Tag)。因此决策对未知单词是按先验概率计算的。正如预期的那样,它没有产生好的结果。

2) 拉普拉斯平滑我对此感到困惑。我不知道(1)和这个有什么区别。我理解拉普拉斯平滑的方式将恒定概率(lambda)添加到所有未知和已知单词中。因此,所有未知单词将获得恒定概率(lambda的分数),并且已知单词概率将相对相同,因为所有单词的概率增加了 lambda 。拉普拉斯平滑和之前的一样吗?

*)有没有更好的方法来处理未知单词?

最佳答案

您的两种方法很相似,但是,如果我理解正确的话,它们在一个关键方面有所不同。在 (1) 中,您为未知单词的计数分配额外的质量,在 (2) 中,您为所有计数分配额外的质量。您肯定想要执行 (2) 而不是 (1)。

拉普拉斯平滑的问题之一是它对未知单词给予过多的提升,并过多地降低高概率单词的概率(相对而言)。你的版本(1)实际上会使这个问题变得更糟。基本上,它会过于平滑。

拉普拉斯平滑单词对于隐马尔可夫模型来说还可以,但是效果不是很好。大多数人都会进行加一平滑处理,但您可以尝试加二分之一或其他类似的方法。

如果您想超越这种幼稚的平滑方法,请查看“单计数平滑”,如 Jason Eisner's HMM tutorial 的附录中所述。 。这里的基本思想是,对于未知单词,应该为与更广泛的低频单词一起出现的标签赋予更多的概率质量。例如,由于标记 NOUN 出现在大量不同的单词上,而 DETERMINER 出现在少量不同的单词上,因此未见过的单词更有可能是 NOUN。

如果您想变得更高级,您可以使用从非参数贝叶斯统计中获取的中餐馆流程模型,对未见过的单词/标签组合进行先验分布。 Kevin Knight's Bayesian inference tutorial有详细信息。

关于nlp - 词性标记 : tagging unknown words,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12613294/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com