- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:
POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))
但是,这在语音文本方面还不够。例如,“你好”在应该被识别为感叹词时未被识别。我从这里 (In NLTK pos_tag, why “hello” is classified as Noun?) 读到,如果我想标记口语文本,我将“需要在整个 Penn Treebank 上训练标记器,其中包括大约 300 万个英语口语单词。”我现在的问题是如何我可以这样做吗?我来过这里 ( Penn Treebank Project ) 但在上面找不到任何东西。
如果整个 Penn Treebank 的训练太难了,有什么替代方案?我正在考虑使用 Brown 语料库,但是 POS 标签不同,这让我不得不重写程序的其他部分。
最佳答案
不幸的是,Penn Treebank 只能通过 Linguistic Data Consortium 支付高额费用才能使用。 .如果您的需求是非商业性的,您或许可以找到可以授予您访问权限的学者。
或者,您可以通过运行现有的词性标注器(如 ClearNLP tools)来创建自己的银标准(而不是金标准)数据。或 Stanford CoreNLP tools在你的一些其他数据(新闻文章、布朗、维基百科等...)上,然后你可以使用这个标记数据并训练 NLTK 标记器。当然,如果您需要更适合语音的数据,您可能需要查看 Switchboard 语料库。看起来有一个 version with some POS and syntactic annotation可通过知识共享许可获得。
关于python - 我如何在整个 Penn Treebank 语料库上训练 NLTK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16900503/
我有一个 PENN 语法树,我想递归地获取这棵树包含的所有规则。 (ROOT (S (NP (NN Carnac) (DT the) (NN Magnificent)) (VP (VBD
说我有一句话: After he had eaten the cheese, Bill went to the grocery. 在我的程序中,我得到以下输出: ---PARSE TREE--- (R
我目前正在尝试运行以下项目( https://github.com/ilija139/PDTB-Parser )。我用来运行该项目的文本文件是 wsj_2300.txt,可以在“输出”目录中找到。不幸
你们中有人知道将标签从 CLAWS7 标签集转换为 Penn 标签集中的等效标签的方法吗? CLAWS7 标签集:http://ucrel.lancs.ac.uk/claws7tags.html Pe
我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器: POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=De
我正在专门寻找一些数据结构、枚举或生成过程,通过它们在内部表示不同的词性。我花了很长时间扫描了一段时间的Javadoc和源代码,找不到我要找的东西。如果可能的话,我想直接访问标签的集合,如果它们存储在
我正在寻找一个端口为 this 的 Perl 模块我基本上可以在其中创建一个对象,调用一个 tokenize() 子例程,传入一堆文本并取回一个标记列表。达到那种效果的东西。如果它不存在我会做,但重新
我知道 Treebank 语料库已经被标记了,但与 Brown 语料库不同,我不知道如何获得标签字典。例如, >>> from nltk.corpus import brown >>> wordcou
Penn Treebank tagset有一个单独的标签 TO对于单词“to”,无论它是用于介词意义(例如 I went to school )还是不定式意义(例如 I want to eat )。从
我正在使用 OpenIE来自斯坦福 NLP 库的工具,用于从句子中获取最少的从句。以下是我到目前为止的想法(主要是从他们的演示代码中获得灵感): public static void main(Str
我正在努力学习使用 NLTK在 python 中打包。特别是,我需要在 NLTK 中使用 penn tree bank 数据集。据我所知,如果我调用 nltk.download('treebank')
有没有办法解析下面的PTB树来获取所有子树例如: Text : Today is a nice day. PTB : (3 (2 Today) (3 (3 (2 is) (3 (2 a) (3
我对 NLTK 和 Python 还很陌生。我一直在使用示例中给出的玩具语法创建句子解析,但我想知道是否有可能使用从 Penn Treebank 的一部分学习的语法,而不是仅仅编写我自己的或使用玩具语
我是一名优秀的程序员,十分优秀!