python - 我如何在整个 Penn Treebank 语料库上训练 NLTK？-6ren

python - 我如何在整个 Penn Treebank 语料库上训练 NLTK？

转载作者：太空宇宙更新时间：2023-11-03 14:28:03

25

4

我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:

POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))

但是，这在语音文本方面还不够。例如，“你好”在应该被识别为感叹词时未被识别。我从这里 (In NLTK pos_tag, why “hello” is classified as Noun?) 读到，如果我想标记口语文本，我将“需要在整个 Penn Treebank 上训练标记器，其中包括大约 300 万个英语口语单词。”我现在的问题是如何我可以这样做吗？我来过这里 ( Penn Treebank Project ) 但在上面找不到任何东西。

如果整个 Penn Treebank 的训练太难了，有什么替代方案？我正在考虑使用 Brown 语料库，但是 POS 标签不同，这让我不得不重写程序的其他部分。

最佳答案

不幸的是，Penn Treebank 只能通过 Linguistic Data Consortium 支付高额费用才能使用。 .如果您的需求是非商业性的，您或许可以找到可以授予您访问权限的学者。

或者，您可以通过运行现有的词性标注器(如 ClearNLP tools)来创建自己的银标准(而不是金标准)数据。或 Stanford CoreNLP tools在你的一些其他数据(新闻文章、布朗、维基百科等...)上，然后你可以使用这个标记数据并训练 NLTK 标记器。当然，如果您需要更适合语音的数据，您可能需要查看 Switchboard 语料库。看起来有一个 version with some POS and syntactic annotation可通过知识共享许可获得。

关于python - 我如何在整个 Penn Treebank 语料库上训练 NLTK？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16900503/

25

4

0

文章推荐： c# - 重复事件

文章推荐： python - 如何将变量的值与该变量的名称联系起来？

文章推荐： laravel - 伪造 laravel 自定义 ssl 设置

文章推荐： c# - 模拟并发 WCF 客户端调用并测量响应时间

python - 解析 penn 语法树以提取其语法规则
我有一个 PENN 语法树，我想递归地获取这棵树包含的所有规则。 (ROOT (S (NP (NN Carnac) (DT the) (NN Magnificent)) (VP (VBD
nlp - 从 Penn Treebank 格式的文本中提取子句
说我有一句话: After he had eaten the cheese, Bill went to the grocery. 在我的程序中，我得到以下输出: ---PARSE TREE--- (R
java - Penn 话语树库 (PDTB) 解析器
我目前正在尝试运行以下项目( https://github.com/ilija139/PDTB-Parser )。我用来运行该项目的文本文件是 wsj_2300.txt，可以在“输出”目录中找到。不幸
nlp - 如何将 CLAWS7 标签转换为 Penn 标签？
你们中有人知道将标签从 CLAWS7 标签集转换为 Penn 标签集中的等效标签的方法吗？ CLAWS7 标签集:http://ucrel.lancs.ac.uk/claws7tags.html Pe
python - 我如何在整个 Penn Treebank 语料库上训练 NLTK？
我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器: POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=De
java - Penn Treebank 词性符号本身在 CoreNLP 代码中的什么位置实际表示？
我正在专门寻找一些数据结构、枚举或生成过程，通过它们在内部表示不同的词性。我花了很长时间扫描了一段时间的Javadoc和源代码，找不到我要找的东西。如果可能的话，我想直接访问标签的集合，如果它们存储在
perl - Perl 中是否有 Penn Treebank Tokenizer 的实现？
我正在寻找一个端口为 this 的 Perl 模块我基本上可以在其中创建一个对象，调用一个 tokenize() 子例程，传入一堆文本并取回一个标记列表。达到那种效果的东西。如果它不存在我会做，但重新
python - 从 NLTK 的 Penn Treebank 语料库样本创建字典？
我知道 Treebank 语料库已经被标记了，但与 Brown 语料库不同，我不知道如何获得标签字典。例如， >>> from nltk.corpus import brown >>> wordcou
nlp - 为什么 Penn Treebank POS 标签集对 'to' 一词有单独的标签？
Penn Treebank tagset有一个单独的标签 TO对于单词“to”，无论它是用于介词意义(例如 I went to school )还是不定式意义(例如 I want to eat )。从
java - 在 Stanford CoreNLP 流水线中输入 Penn Treebank 组成树
我正在使用 OpenIE来自斯坦福 NLP 库的工具，用于从句子中获取最少的从句。以下是我到目前为止的想法(主要是从他们的演示代码中获得灵感): public static void main(Str
python - 我怎么能在 python/nltk 中使用完整的 penn treebank 数据集
我正在努力学习使用 NLTK在 python 中打包。特别是，我需要在 NLTK 中使用 penn tree bank 数据集。据我所知，如果我调用 nltk.download('treebank')
java - 如何使用 stanford NLP 解析 Penn Tree Bank 并获取所有子树？
有没有办法解析下面的PTB树来获取所有子树例如: Text : Today is a nice day. PTB : (3 (2 Today) (3 (3 (2 is) (3 (2 a) (3
python - 如何使用 python 和 NLTK 从 Penn Treebank 获取一组语法规则？
我对 NLTK 和 Python 还很陌生。我一直在使用示例中给出的玩具语法创建句子解析，但我想知道是否有可能使用从 Penn Treebank 的一部分学习的语法，而不是仅仅编写我自己的或使用玩具语

首页

博学

6Ren·AI

商城

python - 我如何在整个 Penn Treebank 语料库上训练 NLTK？