nlp - 为什么 Penn Treebank POS 标签集对 'to' 一词有单独的标签？-6ren

nlp - 为什么 Penn Treebank POS 标签集对 'to' 一词有单独的标签？

转载作者：行者123 更新时间：2023-12-04 18:33:53

25

4

Penn Treebank tagset有一个单独的标签 TO对于单词“to”，无论它是用于介词意义(例如 I went to school )还是不定式意义(例如 I want to eat )。从整体 NLP 的角度来看，这有什么目的？单独标记不定式“to”具有直观意义，但我没有看到在单个标签中组合不定式和介词背后的逻辑。

谢谢，如果这不符合堆栈溢出指南，我们深表歉意。

最佳答案

不同的语料库提供不同级别的粒度。例如，将此与 British National Corpus, which includes three different tags 进行比较为了。

我相信这可能是语料库标记实践的一个属性，而不是来自这样一个特定的 NLP 性能目的。很难想象这是 POS Guidelines for the Penn Treebank Project 的设计决定。 . (联系 this paper 的作者进一步澄清。)

为了使 POS 标签集没有单独的单词“to”的标签，它有时需要将“to”标记为介词，有时需要用不同的标签“不定式标记”来标记“to”。要做到这一点，人工标记者必须消除“to”这两个角色之间的歧义。一些 tricky cases (需要语法判断)可能需要一些额外的人工时间来消除歧义，鉴于标记的语料库的大小，这也可能导致一些错误标记。如果估计信息增益(来自必须消除歧义的粒度)不是那么大，或者如果估计潜在的标记错误太多，则这种权衡可能会在效率和正确性方面犯更多错误。

关于nlp - 为什么 Penn Treebank POS 标签集对 'to' 一词有单独的标签？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19079547/

25

4

0

文章推荐： vba - 调用应用程序时对象错误

文章推荐： json - 如何在 Circe 中创建一个自定义解码器来解析时间值

首页

博学

6Ren·AI

商城