python - Spacy NLP - 使用正则表达式进行分块-6ren

python - Spacy NLP - 使用正则表达式进行分块

转载作者：行者123 更新时间：2023-11-30 22:46:56

24

4

Spacy 包含用于检索名词短语集的noun_chunks 功能。函数english_noun_chunks(附在下面)使用word.pos == NOUN

def english_noun_chunks(doc):
    labels = ['nsubj', 'dobj', 'nsubjpass', 'pcomp', 'pobj',
              'attr', 'root']
    np_deps = [doc.vocab.strings[label] for label in labels]
    conj = doc.vocab.strings['conj']
    np_label = doc.vocab.strings['NP']
    for i in range(len(doc)):
        word = doc[i]
        if word.pos == NOUN and word.dep in np_deps:
            yield word.left_edge.i, word.i+1, np_label
        elif word.pos == NOUN and word.dep == conj:
            head = word.head
            while head.dep == conj and head.head.i < head.i:
                head = head.head
            # If the head is an NP, and we're coordinated to it, we're an NP
            if head.dep in np_deps:
                yield word.left_edge.i, word.i+1, np_label

我想从维护一些正则表达式的句子中获取 block 。例如，I 短语由零个或多个形容词组成，后跟一个或多个名词。

{(<JJ>)*(<NN | NNS | NNP>)+}

是否可以不覆盖 english_noun_chunks 函数？

最佳答案

你可以重写这个函数而不损失任何性能，因为它是用纯Python实现的，但为什么不在获得这些 block 后过滤它们呢？

import re
import spacy

def filtered_chunks(doc, pattern):
  for chunk in doc.noun_chunks:
    signature = ''.join(['<%s>' % w.tag_ for w in chunk])
    if pattern.match(signature) is not None:
      yield chunk

nlp = spacy.load('en')
doc = nlp(u'Great work!')
pattern = re.compile(r'(<JJ>)*(<NN>|<NNS>|<NNP>)+')

print(list(filtered_chunks(doc, pattern)))

关于python - Spacy NLP - 使用正则表达式进行分块，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40716419/

24

4

0

文章推荐： php - 使用 MySQL 和 PHP 计算错误

文章推荐： MySQL:在多列中搜索关键字

WCF 分块/流媒体
我正在使用 WCF 并希望将大文件从客户端上传到服务器。我已经调查并决定遵循 http://msdn.microsoft.com/en-us/library/aa717050.aspx 中概述的分块方
http - 传输编码:分块
我试图了解有关 Transfer-Encoding:chunked 的更多信息。引用了一些文章: http://zoompf.com/blog/2012/05/too-chunky和 "Transfe
hdf5 - 分块 HDF5 数据集和slabsize
我们正在评估 HDF5 在分块数据集方面的性能。特别是我们试图弄清楚是否可以跨不同的连续块进行读取以及这样做会如何影响性能？例如。我们有一个块大小为 10 的数据集，一个有 100 个值的数据集，
php - 如何从闭包中终止 Eloquent 分块
使用 Eloquent，如何根据 chunk 中的条件终止分块函数的关闭？我试过返回，但这似乎只终止当前块而不是所有块。此时，我想停止从数据库中检索记录。 $query->chunk(self::CH
javascript - plupload:从头开始重新上传(分块)
有没有办法在不删除所选文件的情况下重新启动 plupload 上传？ plupload.stop() 停止上传，但如果我使用 start() 再次启动上传，它会从上次停止的地方继续。相反，我希望它再次
python - 连接两个大文件而不用 pandas 分块
我有带有“id，名称”的文件1和带有“id，地址”的文件2。我无法加载第一个文件(小于 2Gb):它在 76k 行(带有 block 连接)和只有 2 列后崩溃...我也无法在第二个文件上 read_
javascript - Servlet/Javascript 分块
我正在尝试从头开始设计一个系统，我想在其中通过 servlet 加载文本行。生产线的生产需要一些时间。因此，我希望能够在它们到达时在我的浏览器中逐步显示它们，一次显示几个。我想从 javascript
android - 分块 Web 服务响应
能否请您提供一个示例，说明如何在 Android 中读取来自 Web 服务的分块响应谢谢编辑:我尝试调用一个 soap 网络服务，它用代表图像的 base64 编码字符串回复我代码如下: Str
algorithm - 分块 map 的数据结构
我想制作一个无限平铺 map ，从(-max_int,-max_int)到(max_int,max_int)，所以我要制作一个基本结构: chunk，每个 chunk 包含 char tiles[w]
php - 如果已发送部分响应(分块)，如何将浏览器发送到错误页面
这是一个典型的场景:评估一个页面，并且有一个缓冲区 - 一旦缓冲区已满，评估的页面部分就会发送到浏览器。这使用 HTTP 1.1 分块编码。但是，其中一个 block 中可能会发生错误(在第一个 b
python - 与 nltk 分块
如何从给定模式的句子中获取所有 block 。例子 NP:{} 标记的句子: [("money", "NN"), ("market", "NN") ("fund", "NN")] 如果我解析我得到 (
Python 分块 CSV 文件多处理
我正在使用以下代码将 CSV 文件拆分为多个 block (来自 here) def worker(chunk): print len(chunk) def keyfunc(row):
javascript - Dropzone JS - 分块
我想我已经很接近这个了，我有以下 dropzone 配置: Dropzone.options.myDZ = { chunking: true, chunkSize: 500000, ret
javascript - 分块 WebSocket 传输
因为我在更常规的基础上使用 WebSocket 连接，所以我对事情在幕后的工作方式很感兴趣。因此，我研究了无休止的规范文档一段时间，但到目前为止，我真的找不到任何关于对传输流本身进行分 block 。
go - Go中的 slice 分块
我有一个 slice ，其中包含约 210 万个日志字符串，我想创建一个 slice ，字符串尽可能均匀分布。这是我目前所拥有的: // logs is a slice with ~2.1 mill
python - 大型 NumPy 数组的成对距离(分块？)
问题: 我有一个大约为 [350000, 1] 的向量，我希望计算成对距离。这导致 [350000, 350000] 整数数据类型的矩阵不适合 RAM。我最终想得到一个 bool 值(适合 RAM)，
jquery - JSONP 和 jQuery 分块
我想将 JSONP 用于具有 x 域脚本编写的项目，但不太关心 IE 中的 2048 个字符限制。如果字符大小超过 2048，JSONP 是否自动支持“分块”？如果是的话，有人可以分享一些例子吗？
java - Libgdx 分块 map 碰撞检测
我目前正在开发 2d 角色扮演游戏，例如《最终幻想 1-4》。基本上，我的平铺 map 可以加载， Sprite 可以在 map 上自由行走。如何处理与平铺 map 的碰撞？我创建了三个独立的图
python - 使用 Python-Treetaggerwrapper 分块
Treetagger 可以进行词性标记和文本分块，这意味着提取口头和名词性从句，如这个德语示例所示: $ echo 'Das ist ein Test.' | cmd/tagger-chunker-g
android - 带有改造 2 的流媒体服务器 - 分块
我应该从服务器流式传输端点，该端点返回带有传输编码的 json:分块。我有以下代码，但无法读取响应。我尝试了 responseBody.streamBytes() 并将输入流转换为字符串，但我不能在

首页

博学

6Ren·AI

商城

python - Spacy NLP - 使用正则表达式进行分块