gpt4 book ai didi

python - 如何使用 univ_pos 参数实现 spacy lemmatizer

转载 作者:行者123 更新时间:2023-12-05 07:13:05 25 4
gpt4 key购买 nike

tokens = [The, wage, productivity, nexus, the, process, of, development,....]

我正在尝试使用 SpaCy 的 Lemmatizer 将标记列表转换为词形还原形式。 Here是我正在使用的文档。

我的代码:

from spacy.lemmatizer import Lemmatizer
from spacy.lookups import Lookups
lookups = Lookups()
lookups.add_table("lemma_rules")
lemmatizer = Lemmatizer(lookups)
lemmas = []
for tokens in filtered_tokens:
lemmas.append(lemmatizer(tokens))

错误信息

TypeError                                 Traceback (most recent call last)
in
7 lemmas = []
8 for tokens in filtered_tokens:
----> 9 lemmas.append(lemmatizer(tokens))

TypeError: __call__() missing 1 required positional argument: 'univ_pos'

我在 this 中理解讨论 SpaCy 的 Lemmatizer 是如何工作的,并从理论上理解它。但是,我不确定如何实现它。

如何找到我的代币的univ_pos

最佳答案

这是一个改编自 spaCy 文档的示例...

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
for token in doc:
print(token.text, token.pos_, token.lemma_)

这里的 .pos_ 为您提供了您在原始问题中寻找的通用依赖词性。

但是,标记、词形还原等需要完整的组件管道。有一个用于添加 pos 数据的标记器。如果 Tokenizer 是您管道中的唯一功能,那么您可能不会获得 pos 信息。

关于python - 如何使用 univ_pos 参数实现 spacy lemmatizer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60253648/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com