python-3.x - 如何使用 SpaCy 中的管道组件修改 spacy.tokens.doc.Doc token-6ren

python-3.x - 如何使用 SpaCy 中的管道组件修改 spacy.tokens.doc.Doc token

转载作者：行者123 更新时间：2023-12-03 23:35:55

25

4

我正在使用 SpaCy 来预处理一些数据。但是，我被困在如何修改 spacy.tokens.doc.Doc 的内容上。类(class)。

例如，这里:

npc = spacy.load("pt")
def pre_process_text(doc) -> str:
    new_content = ""
    current_tkn = doc[0]
    for idx, next_tkn in enumerate(doc[1:], start=0):
        # Pre-process data
        # new_content -> currently, it is the way I'm generating
        # the new content, concatenating the modified tokens

    return new_content
nlp.add_pipe(pre_process_text, last=True)

在上面代码的注释部分，我想从 doc 中删除一些标记。 param，或者我想更改其标记文本内容。也就是说，我可以修改 spacy.tokens.doc.Doc的内容来自 (1) 完全删除 token ，或 (2) 改变 token 内容。

有没有办法创建另一个 spacy.tokens.doc.Doc使用那些修改过的 token 但保留 Vocab来自 npc = spacy.load("pt") .

目前，我通过返回一个字符串来生成新内容，但是有没有办法返回修改后的 Doc？

最佳答案

spaCy的核心原则之一Doc是吗should always represent the original input :

spaCy's tokenization is non-destructive, so it always represents the original input text and never adds or deletes anything. This is kind of a core principle of the Doc object: you should always be able to reconstruct and reproduce the original input text.

While you can work around that, there are usually better ways to achieve the same thing without breaking the input text ↔ Doc text consistency.

我在 my comment here 中概述了在不破坏原始输入的情况下排除 token 的一些方法.

或者，如果你真的想修改 Doc ，您的组件可以 create a new Doc object并返回。 Doc对象接受一个词汇(例如原始文档的词汇)，一个字符串列表 words和一个可选列表 spaces ，一个 bool 值列表，指示该位置的标记是否后跟一个空格。

from spacy.tokens import Doc

def pre_process_text(doc):
    # Generate a new list of tokens here
    new_words = create_new_words_here(doc)
    new_doc = Doc(doc.vocab, words=new_words)
    return new_doc

请注意，您可能希望添加此组件第一在其他组件运行之前在管道中。否则，您将丢失之前组件分配的任何语言特征(如词性标签、依赖项等)。

关于python-3.x - 如何使用 SpaCy 中的管道组件修改 spacy.tokens.doc.Doc token ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57187116/

25

4

0

文章推荐： Angular Material 7 Multi Select - 设置选定值

文章推荐： visual-c++ - 安装 Visual Studio 2019 后缺少 vcvarsall.bat

文章推荐： jdbc - 10.15.1.3 版的 org.apache.derby.jdbc.ClientDriver 在哪里？

c# - 为什么 "test user-doc.doc"==> TESTUS~1.DOC？
我编写了一个 c# 程序，并在未安装 MS-Office 的 PC 中将其与文件扩展名(如 DOC)相关联。然后，我双击名称中包含空白字符的任何文件，我的程序将启动以打开该文件。我使用了以下语句: s
google-docs - 如何使用 Google Docs API 编辑 Google Docs 标题？
我试过创建、批量更新、从 https://developers.google.com/docs/api/how-tos/overview 获取. 即使在 batchUpdate 中，我也看不到编辑 t
linux - 在 Linux 中运行 ls doc*.txt 和 ls doc?*.txt 和 ls doc*?.txt 有什么不同？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
google-docs - Google Docs API - 更新链接表格
我正在尝试使用新 API 更新 Google 文档中的表格。表格链接自 Google 表格。我尝试了谷歌云中的 API 资源管理器。我能够以 json 格式提取文档，然后过滤出表格。但是在表 jso
google-docs - Google Docs API - 模拟用户文件下载
将 Google Docs Java API 与 Google Apps 帐户一起使用，是否可以模拟用户并下载文件？当我运行下面的程序时，它显然是登录到域并冒充用户，因为它检索其中一个文件的详细信息
api-doc - 如何在 api-doc 中设置数组响应？
我试图通过 apidoc 生成 API 文档如果我的回应是一个数组 [ {"id" : 1, "name" : "John"}, {"id" : 2, "name" : "Mary"}
google-docs-api - 无需身份验证的 Google Docs API
是否可以在没有身份验证的情况下在 Google Docs 中查询公开共享的用户文档？我正在寻找的特定最终目标是能够提供用户 ID，然后列出所有公开共享的文档，并在集合中带有特定标记。谢谢。最佳答
elasticsearch - 在elasticsearch中，/doc/_mapping和/doc {“mappings”之间有什么区别……}
我对Elasticsearch映射感到困惑首先，我创建了一个带有映射请求的文档 PUT /person { "mappings":{ "properties":{ "firs
google-docs - Google Doc Query 在一张表中工作，但在另一张表中给出解析错误
我有一个可在一个电子表格中运行的 Google 文档查询。但是，当我复制电子表格时，查询不起作用，并且收到解析错误:无法解析函数 QUERY 参数 2 的查询字符串:NO_COLUMNCol2。我的
java - 如何使用现有 XML DOC 的属性创建新的 XML DOC？
我有一个如下所示的 XML 文档: _1 _2 TASK _3 TASK 我必须使用第一个文档中的节点属性创建另一
read-the-docs - 如何找到 Read-the-docs 项目的 PDF 版本
我没有看到什么？ RTD features页面说: PDF Generation When you build your project on RTD, we automatically build
google-docs - 嵌入式 Google Docs PDF 查看器显示登录页面而不是 PDF
我有一个网页，我在 iFrame 中嵌入了一个 Google 文档查看器 (其中 URL-encoded-URL 是实际编码的 URL)。对于我的许多/大多数用户，Google PDF 文档查看器
google-docs - 在 asp.net 应用程序中使用 google docs
我如何在我的项目中使用 GOOGLE DOCS，我正在使用 asp.net 和 C# 作为后面的代码。基本上我需要在浏览器中以只读形式显示一些 pdf、doc、dox、excel 文档。提前致谢
google-docs-api - 如何使用 Google Docs API 缩进项目符号列表
从看起来像的 Google Doc 开始: * Item 我希望进行一系列 API 调用以将文档转换为: * Item - Subitem 但是，我不知道如何使用 API 做到这一点。 Crea
google-docs - 使用 JavaScript 控制 Google Docs 嵌入式查看器
我需要控制我网站中嵌入的 Google 文档查看器。更具体地说，我需要能够启用/禁用 Google 幻灯片 View 的控件，并能够使用 JavaScript 启动/停止演示文稿。我无法为此找到任何
google-docs - 如何使用 Google Docs API 添加页眉/页脚
我想使用 Google Docs API 将页眉和页脚添加到现有的 Google 文档文件中. 看着documents.batchUpdate ( link ) 我们可以插入文本、替换文本、添加图像和
google-docs - 监控 Google Docs 上的 View 统计信息
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 4 年前。 Improve
javascript - docs 文件夹中的 GitHub Pages 引用 docs 文件夹外部的文件
我已按照 GitHub 的文档进行操作，并使用 docs 成功发布了我的项目页面。我的项目存储库下的文件夹。但我想知道如何解决这个小问题: 我正在开发一个 JavaScript 库 wesa.js ，
java - 无法通过 Docs API 向新的 Google Doc 添加文本
我的程序正在创建文档，每个文档都有需要放入其中的文本。任何调用 InsertTextRequest 的尝试调用错误。 List requests = new ArrayList<>(); reques
如果 doc 的关键字发生变化，则 MySQL 会触发 doc 的更新时间戳
基于此: Set field to automatically insert time-stamp on UPDATE? 我正在尝试创建适合我需要的触发器，但我发现使用 OLD 和 NEW 关键字不方

首页

博学

6Ren·AI

商城

python-3.x - 如何使用 SpaCy 中的管道组件修改 spacy.tokens.doc.Doc token