- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
Penn Treebank tagset有一个单独的标签 TO
对于单词“to”,无论它是用于介词意义(例如 I went to school
)还是不定式意义(例如 I want to eat
)。从整体 NLP 的角度来看,这有什么目的?单独标记不定式“to”具有直观意义,但我没有看到在单个标签中组合不定式和介词背后的逻辑。
谢谢,如果这不符合堆栈溢出指南,我们深表歉意。
最佳答案
不同的语料库提供不同级别的粒度。例如,将此与 British National Corpus, which includes three different tags 进行比较为了。
我相信这可能是语料库标记实践的一个属性,而不是来自这样一个特定的 NLP 性能目的。很难想象这是 POS Guidelines for the Penn Treebank Project 的设计决定。 . (联系 this paper 的作者进一步澄清。)
为了使 POS 标签集没有单独的单词“to”的标签,它有时需要将“to”标记为介词,有时需要用不同的标签“不定式标记”来标记“to”。要做到这一点,人工标记者必须消除“to”这两个角色之间的歧义。一些 tricky cases (需要语法判断)可能需要一些额外的人工时间来消除歧义,鉴于标记的语料库的大小,这也可能导致一些错误标记。如果估计信息增益(来自必须消除歧义的粒度)不是那么大,或者如果估计潜在的标记错误太多,则这种权衡可能会在效率和正确性方面犯更多错误。
关于nlp - 为什么 Penn Treebank POS 标签集对 'to' 一词有单独的标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19079547/
我有一个 PENN 语法树,我想递归地获取这棵树包含的所有规则。 (ROOT (S (NP (NN Carnac) (DT the) (NN Magnificent)) (VP (VBD
说我有一句话: After he had eaten the cheese, Bill went to the grocery. 在我的程序中,我得到以下输出: ---PARSE TREE--- (R
我目前正在尝试运行以下项目( https://github.com/ilija139/PDTB-Parser )。我用来运行该项目的文本文件是 wsj_2300.txt,可以在“输出”目录中找到。不幸
你们中有人知道将标签从 CLAWS7 标签集转换为 Penn 标签集中的等效标签的方法吗? CLAWS7 标签集:http://ucrel.lancs.ac.uk/claws7tags.html Pe
我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器: POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=De
我正在专门寻找一些数据结构、枚举或生成过程,通过它们在内部表示不同的词性。我花了很长时间扫描了一段时间的Javadoc和源代码,找不到我要找的东西。如果可能的话,我想直接访问标签的集合,如果它们存储在
我正在寻找一个端口为 this 的 Perl 模块我基本上可以在其中创建一个对象,调用一个 tokenize() 子例程,传入一堆文本并取回一个标记列表。达到那种效果的东西。如果它不存在我会做,但重新
我知道 Treebank 语料库已经被标记了,但与 Brown 语料库不同,我不知道如何获得标签字典。例如, >>> from nltk.corpus import brown >>> wordcou
Penn Treebank tagset有一个单独的标签 TO对于单词“to”,无论它是用于介词意义(例如 I went to school )还是不定式意义(例如 I want to eat )。从
我正在使用 OpenIE来自斯坦福 NLP 库的工具,用于从句子中获取最少的从句。以下是我到目前为止的想法(主要是从他们的演示代码中获得灵感): public static void main(Str
我正在努力学习使用 NLTK在 python 中打包。特别是,我需要在 NLTK 中使用 penn tree bank 数据集。据我所知,如果我调用 nltk.download('treebank')
有没有办法解析下面的PTB树来获取所有子树例如: Text : Today is a nice day. PTB : (3 (2 Today) (3 (3 (2 is) (3 (2 a) (3
我对 NLTK 和 Python 还很陌生。我一直在使用示例中给出的玩具语法创建句子解析,但我想知道是否有可能使用从 Penn Treebank 的一部分学习的语法,而不是仅仅编写我自己的或使用玩具语
我是一名优秀的程序员,十分优秀!