gpt4 book ai didi

spacy - 让 spacy nlp.pipe 处理文本元组和附加信息以添加为文档功能?

转载 作者:行者123 更新时间:2023-12-02 03:13:04 32 4
gpt4 key购买 nike

显然 for doc in nlp.pipe(sequence) 比运行 for el in order: doc = nlp(el) ..

我遇到的问题是我的序列实际上是一个元组序列,其中包含用于将 spacy 转换为文档的文本,还包含我希望作为文档属性进入 spacy 文档的附加信息(我将其将注册 Doc)。

我不确定如何修改spacy管道,以便第一阶段真正从元组中选择一个项目来运行分词器并获取文档,然后让其他函数使用元组中的剩余项目来将功能添加到现有文档中。

最佳答案

听起来您可能正在寻找 nlp.pipeas_tuples 参数?如果设置 as_tuples=True,则可以传入 (text, context) 元组流,spaCy 将生成 (doc, context)元组(而不仅仅是 Doc 对象)。然后,您可以使用上下文并将其添加到自定义属性等中。

这是一个例子:

data = [
("Some text to process", {"meta": "foo"}),
("And more text...", {"meta": "bar"})
]

for doc, context in nlp.pipe(data, as_tuples=True):
# Let's assume you have a "meta" extension registered on the Doc
doc._.meta = context["meta"]

关于spacy - 让 spacy nlp.pipe 处理文本元组和附加信息以添加为文档功能?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57058798/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com