gpt4 book ai didi

python - 具有 SpaCy 的自定义实体标尺未返回匹配项

转载 作者:行者123 更新时间:2023-12-04 00:25:17 25 4
gpt4 key购买 nike

这个 link展示了如何创建自定义实体标尺。

我基本上复制并修改了另一个自定义实体标尺的代码,并使用它在 doc 中查找匹配项,如下所示:

nlp = spacy.load('en_core_web_lg')
ruler = EntityRuler(nlp)

grades = ["Level 1", "Level 2", "Level 3", "Level 4"]
for item in grades:
ruler.add_patterns([{"label": "LEVEL", "pattern": item}])

nlp.add_pipe(ruler)

doc = nlp('Level 2 employee first 12 months 1032.70')

with doc.retokenize() as retokenizer:
for ent in doc.ents:
retokenizer.merge(doc[ent.start:ent.end])

matcher = Matcher(nlp.vocab)
pattern =[{'ENT_TYPE': {'REGEX': 'LEVEL'}}, {'ORTH': 'employee'}]
matcher.add('PAY_LEVEL', None, pattern)
matches = matcher(doc)

for match_id, start, end in matches:
span = doc[start:end]
print(span)

但是,当我(在 Jupyter 笔记本中)运行代码时,没有返回任何内容。

你能告诉我吗:

  1. 如果代码什么也没返回,是否意味着没有找到匹配项?

  2. 为什么我的代码与原始代码几乎相同(除了添加到标尺的模式),但找不到匹配项?我做错了什么?

谢谢。

最佳答案

问题是英文模型中提供的 NER 组件与您的 EntityRuler 组件之间的交互。 NER 组件将 2 查找为数字 (CARDINAL),并且存在不允许实体重叠的限制,因此 EntityRuler 组件找不到任何匹配项。

您可以在 NER 组件之前添加 EntityRuler:

nlp.add_pipe(ruler, before='ner')

或者告诉 EntityRuler 允许覆盖现有实体:

ruler = EntityRuler(nlp, overwrite_ents=True)

关于python - 具有 SpaCy 的自定义实体标尺未返回匹配项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57536896/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com