parsing - 如何使用 nltk 或 spacy 从带括号的解析字符串中获取解析 NLP 树对象？-6ren

parsing - 如何使用 nltk 或 spacy 从带括号的解析字符串中获取解析 NLP 树对象？

转载作者：行者123 更新时间：2023-12-02 17:10:48

25

4

我有一句话“你可以说他们经常洗个澡，这增加了他们的兴奋和生活乐趣。”我无法像以下示例:

(ROOT (S (NP (PRP You)) (VP (MD could) (VP (VB say) (SBAR (IN that) (S (NP (PRP they)) (ADVP (RB regularly)) (VP (VB catch) (NP (NP (DT a) (NN shower)) (, ,) (SBAR (WHNP (WDT which)) (S (VP (VBZ adds) (PP (TO to) (NP (NP (PRP$ their) (NN exhilaration)) (CC and) (NP (FW joie) (FW de) (FW vivre))))))))))))) (. .)))

我想复制这个问题的解决方案 https://stackoverflow.com/a/39320379但我有一个字符串句子而不是 NLP 树。

顺便说一句，我正在使用 python 3

最佳答案

使用 Tree.fromstring() 方法:

>>> from nltk import Tree
>>> parse = Tree.fromstring('(ROOT (S (NP (PRP You)) (VP (MD could) (VP (VB say) (SBAR (IN that) (S (NP (PRP they)) (ADVP (RB regularly)) (VP (VB catch) (NP (NP (DT a) (NN shower)) (, ,) (SBAR (WHNP (WDT which)) (S (VP (VBZ adds) (PP (TO to) (NP (NP (PRP$ their) (NN exhilaration)) (CC and) (NP (FW joie) (FW de) (FW vivre))))))))))))) (. .)))')

>>> parse
Tree('ROOT', [Tree('S', [Tree('NP', [Tree('PRP', ['You'])]), Tree('VP', [Tree('MD', ['could']), Tree('VP', [Tree('VB', ['say']), Tree('SBAR', [Tree('IN', ['that']), Tree('S', [Tree('NP', [Tree('PRP', ['they'])]), Tree('ADVP', [Tree('RB', ['regularly'])]), Tree('VP', [Tree('VB', ['catch']), Tree('NP', [Tree('NP', [Tree('DT', ['a']), Tree('NN', ['shower'])]), Tree(',', [',']), Tree('SBAR', [Tree('WHNP', [Tree('WDT', ['which'])]), Tree('S', [Tree('VP', [Tree('VBZ', ['adds']), Tree('PP', [Tree('TO', ['to']), Tree('NP', [Tree('NP', [Tree('PRP$', ['their']), Tree('NN', ['exhilaration'])]), Tree('CC', ['and']), Tree('NP', [Tree('FW', ['joie']), Tree('FW', ['de']), Tree('FW', ['vivre'])])])])])])])])])])])])]), Tree('.', ['.'])])])

>>> parse.pretty_print()
                                                       ROOT                                                             
                                                        |                                                                
                                                        S                                                               
  ______________________________________________________|_____________________________________________________________   
 |         VP                                                                                                         | 
 |     ____|___                                                                                                       |  
 |    |        VP                                                                                                     | 
 |    |     ___|____                                                                                                  |  
 |    |    |       SBAR                                                                                               | 
 |    |    |    ____|_______                                                                                          |  
 |    |    |   |            S                                                                                         | 
 |    |    |   |     _______|____________                                                                             |  
 |    |    |   |    |       |            VP                                                                           | 
 |    |    |   |    |       |        ____|______________                                                              |  
 |    |    |   |    |       |       |                   NP                                                            | 
 |    |    |   |    |       |       |         __________|__________                                                   |  
 |    |    |   |    |       |       |        |          |         SBAR                                                | 
 |    |    |   |    |       |       |        |          |      ____|____                                              |  
 |    |    |   |    |       |       |        |          |     |         S                                             | 
 |    |    |   |    |       |       |        |          |     |         |                                             |  
 |    |    |   |    |       |       |        |          |     |         VP                                            | 
 |    |    |   |    |       |       |        |          |     |     ____|____                                         |  
 |    |    |   |    |       |       |        |          |     |    |         PP                                       | 
 |    |    |   |    |       |       |        |          |     |    |     ____|_____________________                   |  
 |    |    |   |    |       |       |        |          |     |    |    |                          NP                 | 
 |    |    |   |    |       |       |        |          |     |    |    |          ________________|________          |  
 NP   |    |   |    NP     ADVP     |        NP         |    WHNP  |    |         NP               |        NP        | 
 |    |    |   |    |       |       |     ___|____      |     |    |    |     ____|_______         |    ____|____     |  
PRP   MD   VB  IN  PRP      RB      VB   DT       NN    ,    WDT  VBZ   TO  PRP$          NN       CC  FW   FW   FW   . 
 |    |    |   |    |       |       |    |        |     |     |    |    |    |            |        |   |    |    |    |  
You could say that they regularly catch  a      shower  ,   which adds  to their     exhilaration and joie  de vivre  .

关于parsing - 如何使用 nltk 或 spacy 从带括号的解析字符串中获取解析 NLP 树对象？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49371180/

25

4

0

文章推荐： javascript - 渲染前拦截html5数字输入？

文章推荐： google-bigquery - 大查询 : select * replace from multiple nested column

文章推荐： PHPSpreadsheet 从单元格中的文本读取样式

文章推荐： webpack - 从数组中复制 WebpackPlugin

nltk - NLTK 感知器标记器的标记集是什么？
NLTK 感知器标记器的标记集是什么？预训练模型使用的语料库是什么？我试图从NLTK网站上找到官方信息。但他们没有那个。最佳答案来自 https://github.com/nltk/nltk/p
How nltk.TweetTokenizer different from nltk.word_tokenize?(Nltk.TweetTokenizer与nltk.word_tokenize有什么不同？)
我无法理解这两者之间的区别。不过，我了解到word_tokenize将Penn-Treebank用于标记化目的。但TweetTokenizer上的任何内容都不可用。对于哪种类型的数据，我应该使用Twe
nltk - 当我在 NLTK 中尝试 FreqDist() 时收到错误消息 -- NameError : name 'nltk' is not defined
我正在学习 NLTK 和我的 mac 工作正常，除非我在 FreqDist() 上遇到问题。 (我看到另一个关于 FreqDist() 的问题，但他收到了不同的错误消息。TypeError: unha
nltk - 在 NLTK 中提取非结构化文本
我尝试了正则表达式词干分析器，但我得到了数百个不相关的标记。我只是对“播放”词干感兴趣。这是我正在使用的代码: import nltk from nltk.book import * f = open
nltk - 使用 nltk 将日期识别为命名实体？
我正在尝试使用 NLTK 命名实体标记器来识别各种命名实体。在使用 Python 进行自然语言处理一书中，他们提供了常用命名实体的列表(表 7.4，如果有人好奇的话)，其中包括:日期 6 月，2008
nltk - 零碎训练 NaiveBayesClassifier (NLTK)
我有很多文本数据，我想进行分类。我逐 block 递增地获取这些数据(例如 500 个样本)。我想用这些 block 在 NLTK 中对 NaiveBayesClassifier 进行训练，但要进行零
python - NLTK 实体提取从 NLTK 2.0.4 到 NLTK 3.0 的差异
我在尝试运行实体提取功能时遇到问题。我相信这是版本差异。以下工作示例在 2.0.4 中运行，但不在 3.0 中运行。我确实将一个函数调用:batch_ne_chunk 更改为:nltk.ne_chun
docker - RuntimeWarning : 'nltk.downloader' found in sys. 模块在导入包 'nltk' 之后，但在执行 'nltk.downloader' 之前
我正在使用 docker 运行一个使用 nltk、languagetool 等的 NLP 系统... 当我使用 docker-compose build --build-arg env=dev我收到警
nltk - 使用 NLTK 的命名实体识别。提取关键词的相关性
我正在检查 NLTK 的命名实体识别功能。是否可以找出提取出的哪个关键字与原文最相关？另外，是否可以知道提取的关键字的类型(人/组织)？最佳答案如果你有一个训练有素的标注器，你可以先标注你的文本，
nltk - NLTK 中的 pos_tag 不能正确标记句子
我用过这个代码: # Step 1 : TOKENIZE from nltk.tokenize import * words = word_tokenize(text) # Step 2 : POS
nltk - 运行错误 nltk.gaac.demo()
当我运行 nltk.gaac.demo() 时如果我错过了什么，你能帮我吗？我收到以下错误。我使用的是nltk 3.0.1 Python 3.4.1 (v3.4.1:c0e311e010fc, M
nltk - MALLET 与 NLTK 中的主题建模
我刚刚读了一篇关于如何使用 MALLET 进行主题建模的精彩文章，但我在网上找不到任何将 MALLET 与 NLTK 进行比较的内容，而我已经有过一些经验。它们之间的主要区别是什么？ MALLET
nltk - nltk 是否包含阿拉伯语停用词，如果没有，我该如何添加？
我试过这个，但它不起作用 from nltk.corpus import stopwords stopwords_list = stopwords.words('arabic') print(stop
nltk - 可以通过 Poetry 下载 NLTK 数据吗？
我正在构建一个同时使用 NLTK 和 Spacy 的应用程序，并通过 Poetry 管理依赖项。我可以通过将此行添加到我的 pyproject.toml 来下载 Spacy 数据。下 [tool.po
python - NLTK - nltk.tokenize.RegexpTokenizer - 正则表达式未按预期工作
我正在尝试使用 RegexpTokenizer 对文本进行分词。代码: from nltk.tokenize import RegexpTokenizer #from nltk.tokenize i
nltk - NLTK 的 BLEU 分数和 SacreBLEU 有什么区别？
我很好奇是否有人熟悉使用 NLTK's BLEU score calculation 之间的区别和 SacreBLEU library . 特别是，我使用了两个库的句子 BLEU 分数，对整个数据集进
nltk - 如何为 nltk.word_tokenize 定义特殊的 "untokenizable"单词
我正在使用 nltk.word_tokenize用于标记一些包含编程语言、框架等的句子，这些句子被错误标记。例如: >>> tokenize.word_tokenize("I work with C
python - nltk.TweetTokenizer 与 nltk.word_tokenize 有何不同？
我无法理解两者之间的区别。不过，我开始知道 word_tokenize 使用 Penn-Treebank 进行标记化。但是 TweetTokenizer 上没有任何内容可用。对于哪种数据，我应该使用
nlp - nltk.word_tokenize 和 nltk.pos_tag 支持哪些语言
我需要对多种语言的文本进行名称实体提取:西类牙语、葡萄牙语、希腊语、捷克语、中文。是否有这两个功能的所有支持语言的列表？是否有使用其他语料库的方法，以便可以包含这些语言？最佳答案默认情况下，这两
python - 使用 nltk 时。在 nltk 函数之前
我是 python 的新手并使用 nltk，所以实际上我有一个非常基本的问题，但在任何地方都找不到答案。我想知道什么时候在 nltk 模块的函数之前使用 nltk.。我正在处理一些任务，在某些情况下

首页

博学

6Ren·AI

商城

parsing - 如何使用 nltk 或 spacy 从带括号的解析字符串中获取解析 NLP 树对象？