python - 将标记器添加到空白英语 spacy 管道-6ren

python - 将标记器添加到空白英语 spacy 管道

转载作者：行者123 更新时间：2023-12-03 08:18:27

我很难弄清楚如何从 spacy V3 中的内置模型一点一点地组装 spacy 管道。我已经下载了 en_core_web_sm 模型，并且可以使用 nlp = spacy.load("en_core_web_sm") 加载它。像这样处理示例文本就可以了。

现在我想要的是从空白开始构建一个英语管道并一点一点地添加组件。我不想想要加载整个en_core_web_sm管道并排除组件。为了具体起见，假设我只想要管道中的 spacy 默认标记器。 documentation向我建议

import spacy

from spacy.pipeline.tagger import DEFAULT_TAGGER_MODEL
config = {"model": DEFAULT_TAGGER_MODEL}

nlp = spacy.blank("en")
nlp.add_pipe("tagger", config=config)
nlp("This is some sample text.")

应该可以工作。但是我收到与 hashembed 相关的错误:

Traceback (most recent call last):
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/language.py", line 1000, in __call__
    doc = proc(doc, **component_cfg.get(name, {}))
  File "spacy/pipeline/trainable_pipe.pyx", line 56, in spacy.pipeline.trainable_pipe.TrainablePipe.__call__
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/util.py", line 1507, in raise_error
    raise e
  File "spacy/pipeline/trainable_pipe.pyx", line 52, in spacy.pipeline.trainable_pipe.TrainablePipe.__call__
  File "spacy/pipeline/tagger.pyx", line 111, in spacy.pipeline.tagger.Tagger.predict
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 315, in predict
    return self._func(self, X, is_train=False)[0]
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/chain.py", line 54, in forward
    Y, inc_layer_grad = layer(X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 291, in __call__
    return self._func(self, X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/chain.py", line 54, in forward
    Y, inc_layer_grad = layer(X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 291, in __call__
    return self._func(self, X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/chain.py", line 54, in forward
    Y, inc_layer_grad = layer(X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 291, in __call__
    return self._func(self, X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/with_array.py", line 30, in forward
    return _ragged_forward(
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/with_array.py", line 90, in _ragged_forward
    Y, get_dX = layer(Xr.dataXd, is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 291, in __call__
    return self._func(self, X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/concatenate.py", line 44, in forward
    Ys, callbacks = zip(*[layer(X, is_train=is_train) for layer in model.layers])
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/concatenate.py", line 44, in <listcomp>
    Ys, callbacks = zip(*[layer(X, is_train=is_train) for layer in model.layers])
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 291, in __call__
    return self._func(self, X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/chain.py", line 54, in forward
    Y, inc_layer_grad = layer(X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 291, in __call__
    return self._func(self, X, is_train=is_train)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/layers/hashembed.py", line 61, in forward
    vectors = cast(Floats2d, model.get_param("E"))
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/model.py", line 216, in get_param
    raise KeyError(
KeyError: "Parameter 'E' for model 'hashembed' has not been allocated yet."


The above exception was the direct cause of the following exception:
Traceback (most recent call last):
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3437, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-2-8e2b4cf9fd33>", line 8, in <module>
    nlp("This is some sample text.")
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/language.py", line 1003, in __call__
    raise ValueError(Errors.E109.format(name=name)) from e
ValueError: [E109] Component 'tagger' could not be run. Did you forget to call `initialize()`?

暗示我应该运行initialize()。好的。如果我然后运行 nlp.initialize() 我终于得到这个错误

Traceback (most recent call last):
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3437, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-3-eeec225a68df>", line 1, in <module>
    nlp.initialize()
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/language.py", line 1273, in initialize
    proc.initialize(get_examples, nlp=self, **p_settings)
  File "spacy/pipeline/tagger.pyx", line 271, in spacy.pipeline.tagger.Tagger.initialize
  File "spacy/pipeline/pipe.pyx", line 104, in spacy.pipeline.pipe.Pipe._require_labels
ValueError: [E143] Labels for component 'tagger' not initialized. This can be fixed by calling add_label, or by providing a representative batch of examples to the component's `initialize` method.

现在我有点不知所措。哪些标签示例？我从哪里拿它们？为什么默认模型配置不处理这个问题？我是否必须以某种方式告诉 spacy 使用 en_core_web_sm ？如果是这样，我该如何在不使用 spacy.load("en_core_web_sm") 并排除一大堆东西的情况下做到这一点？感谢您的提示!

编辑:理想情况下，我希望能够从修改后的配置文件中仅加载管道的一部分，例如nlp = English.from_config(config)。我什至无法使用 en_core_web_sm 附带的配置文件，因为生成的管道也需要初始化，并且在 nlp.initialize() 上我现在收到

Traceback (most recent call last):
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3437, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-67-eeec225a68df>", line 1, in <module>
    nlp.initialize()
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/language.py", line 1246, in initialize
    I = registry.resolve(config["initialize"], schema=ConfigSchemaInit)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/config.py", line 727, in resolve
    resolved, _ = cls._make(
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/config.py", line 776, in _make
    filled, _, resolved = cls._fill(
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/thinc/config.py", line 848, in _fill
    getter_result = getter(*args, **kwargs)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/language.py", line 98, in load_lookups_data
    lookups = load_lookups(lang=lang, tables=tables)
  File "/home/valentin/miniconda3/envs/eval/lib/python3.8/site-packages/spacy/lookups.py", line 30, in load_lookups
    raise ValueError(Errors.E955.format(table=", ".join(tables), lang=lang))
ValueError: [E955] Can't find table(s) lexeme_norm for language 'en' in spacy-lookups-data. Make sure you have the package installed or provide your own lookup tables if no default lookups are available for your language.

暗示它没有找到所需的查找表。

最佳答案

nlp.add_pipe("tagger") 添加一个新的空白/未初始化的标记器，而不是来自 en_core_web_sm 或任何其他预训练管道的标记器。如果您以这种方式添加标记器，则需要对其进行初始化和训练，然后才能使用它。

您可以使用 source 选项从现有管道添加组件:

nlp = spacy.add_pipe("tagger", source=spacy.load("en_core_web_sm"))

也就是说，来自 spacy.blank("en") 的标记化可能与源管道中标记器的训练内容不同。一般来说(特别是一旦你不再使用 spacy 的预训练管道)，你还应该确保分词器设置是相同的，在排除组件的同时加载是一种简单的方法。

或者，除了对 scispacy 的 en_core_sci_sm 等模型使用 nlp.add_pipe(source=) 之外，您还可以复制分词器设置，这是管道的一个很好的示例标记化与 spacy.blank("en") 不同:

nlp = spacy.blank("en")
source_nlp = spacy.load("en_core_sci_sm")
nlp.tokenizer.from_bytes(source_nlp.tokenizer.to_bytes())
nlp.add_pipe("tagger", source=source_nlp)

关于python - 将标记器添加到空白英语 spacy 管道，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68618759/

文章推荐： google-cloud-platform - Terraform 配置未在 GCP 上公开 http 端口

文章推荐： angular - Angular 10 中有任何 json 编辑器吗？

javascript - 如何在单击添加时隐藏最后一次单击(添加)按钮以及当用户单击删除按钮然后显示上一个隐藏(添加)按钮
我创建了一个用户可以添加测试的字段。这一切运行顺利我只希望当用户点击(添加另一个测试)然后上一个(添加另一个测试)删除并且这个显示在新字段中。所有运行良好的唯一问题是点击(添加另一个字段)之前添加另
java - 将数组的内容添加到 JFrame，添加 JPanel，添加 JScroll
String[] option = {"Adlawan", "Angeles", "Arreza", "Benenoso", "Bermas", "Brebant
php - 为什么我们不能使用 MAC 添加。而不是 IP 添加
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
jquery - 添加 jQuery Nav-tab 添加 Bootstrap
我正在努力将 jQuery 滚动功能添加到 nav-tab (Bootstrap 3)。我希望用户能够选择他们想要的选项卡，并在选项卡内容中有一个可以平滑滚动到 anchor 的链接。这是我的代码，可
jquery - 添加 CSS 到 jQuery Ui Tab 添加
我正在尝试在用户登录后再添加 2 个 ui 选项卡。首先，我尝试做一个之后。 $('#slideshow').tabs('remove', '4'); $("#slideshow ul li:last
javascript - 使用 JavaScript 添加/删除元素(添加/删除带有编号 ID 和名称的字段)
我有一个包含选择元素的表单，我想通过选择添加和删除其中一些元素。这是html代码(这里也有jsfiddle http://jsfiddle.net/txhajy2w/):
ios - 添加 alpha 以查看 VS 添加 alpha 到 UIColor
正在写这个: view.backgroundColor = UIColor.white.withAlphaComponent(0.9) 等同于: view.backgroundColor = UICo
Javascript 添加
好的，如果其中有任何信息，我想将这些列添加到一起。所以说我有账户 1 2 3 . 有 4 个帐户空间，但只有 3 个帐户。我如何创建 java 脚本来添加它。最佳答案 Live Example H
添加/减去数字以查找是否可以生成数字的算法？
我想知道是否有一种有效的预制算法来确定一组数字的和/差是否可以等于不同的数字。示例: 5、8、10、2，使用 + 或 - 等于 9。5 - 8 = -3 + 10 = 7 + 2 = 9 如果有一个预
Git卡在状态/添加/提交
我似乎有一个卡住的 git repo。它卡在所有基本的添加、提交命令上，git push 返回所有内容为最新的。从其他帖子我已经完成了 git gc 和 git fsck/ 我认为基本的调试步骤是
sql - 添加 where 子句会使查询速度变慢
我的 Oracle SQL 查询如下- Q1- select hca.account_number, hca.attribute3, SUM(rcl.extended_amou
iPhone:添加 UIRequiredDeviceCapability
我正在阅读 http://developer.apple.com/iphone/library/documentation/iPhone/Conceptual/iPhoneOSProgrammingG
javascript - 添加 "more"按钮
我正在尝试添加一个“加载更多”按钮并限制下面的结果，这样投资组合页面中就不会同时加载 1000 个内容，如下所示:http://typesetdesign.com/portfolio/ 我对 PHP
javascript - 添加，使用Javascript函数添加多个文本框
我遇到这个问题，我添加了 8 个文本框，它工作正常，但是当我添加更多文本框(如 16 个文本框)时，它不会添加最后一个文本框。有人遇到过这个问题吗？提前致谢。 Live Link: JAVASCRIP
javascript - 添加/删除克隆第一行默认不删除
add/remove clone first row default not delete 添加/删除克隆第一行默认不删除&并获取正确的SrNo(例如:添加3行并在看到问题后删除SrNo.2)
javascript - 添加/删除表单中的输入
我编码this ，但删除按钮不起作用。我在控制台中没有任何错误.. var counter = 0; var dataList = document.getElementById('materi
javascript - 添加/删除类似数组的对象中的元素
我有一个类似数组的对象: [1:数组[10]、2:数组[2]、3:数组[2]、4:数组[2]、5:数组[3]、6:数组[1]] 我正在尝试删除前两个元素，执行一些操作，然后将它们再次插入到同一位置。
arrays - 添加/删除单元格时保持数组排序的最佳方法
使用的 Delphi 版本:2007 你好，我有一个 Tecord 数组 TInfo = Record Name : String; Price : Integer; end; var Info
javascript - 添加/删除小部件以及调整大小不起作用
我使用了基本的 gridster 代码，然后我声明了通过按钮添加和删除小部件的函数它工作正常但是当我将调整大小功能添加到上面的代码中时，它都不起作用(我的意思是调整大小，添加和删除小部件) 我的js代
javascript - 添加/删除上一个或下一个父级中的类
title 323 323 323 title 323 323 323 title 323 323 323 JS $(document).keydown(function(e){

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 将标记器添加到空白英语 spacy 管道