gpt4 book ai didi

python - 我如何在整个 Penn Treebank 语料库上训练 NLTK?

转载 作者:太空宇宙 更新时间:2023-11-03 14:28:03 25 4
gpt4 key购买 nike

我最初使用的是来自 NLTK 的以下 Penn Treebank 标记器:

POS_Tagger = UnigramTagger(treebank.tagged_sents(), backoff=DefaultTagger('NN'))

但是,这在语音文本方面还不够。例如,“你好”在应该被识别为感叹词时未被识别。我从这里 (In NLTK pos_tag, why “hello” is classified as Noun?) 读到,如果我想标记口语文本,我将“需要在整个 Penn Treebank 上训练标记器,其中包括大约 300 万个英语口语单词。”我现在的问题是如何我可以这样做吗?我来过这里 ( Penn Treebank Project ) 但在上面找不到任何东西。

如果整个 Penn Treebank 的训练太难了,有什么替代方案?我正在考虑使用 Brown 语料库,但是 POS 标签不同,这让我不得不重写程序的其他部分。

最佳答案

不幸的是,Penn Treebank 只能通过 Linguistic Data Consortium 支付高额费用才能使用。 .如果您的需求是非商业性的,您或许可以找到可以授予您访问权限的学者。

或者,您可以通过运行现有的词性标注器(如 ClearNLP tools)来创建自己的银标准(而不是金标准)数据。或 Stanford CoreNLP tools在你的一些其他数据(新闻文章、布朗、维基百科等...)上,然后你可以使用这个标记数据并训练 NLTK 标记器。当然,如果您需要更适合语音的数据,您可能需要查看 Switchboard 语料库。看起来有一个 version with some POS and syntactic annotation可通过知识共享许可获得。

关于python - 我如何在整个 Penn Treebank 语料库上训练 NLTK?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16900503/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com