gpt4 book ai didi

python - 如何使用 SpaCy 解决西类牙语词形还原问题?

转载 作者:行者123 更新时间:2023-12-02 06:46:21 25 4
gpt4 key购买 nike

尝试时 西类牙语 lemmatize 超过 60,000 字的 csv, SpaCy 没有正确写出某些单词,我知道该模型不是 100% 准确的。但是,我还没有找到任何其他解决方案,因为 NLTK 不带西类牙核心。

有 friend 在西类牙语的 Stackoverflow 上问过这个问题,但是这个社区和这个社区相比还是很小的,我们没有得到任何答案。

代码:

nlp = spacy.load('es_core_news_sm')

def lemmatizer(text):
doc = nlp(text)
return ' '.join([word.lemma_ for word in doc])

df['column'] = df['column'].apply(lambda x: lemmatizer(x))

我试图对某些我发现错误的词进行词形还原,以证明 SpaCy 没有正确执行:

text = 'personas, ideas, cosas' 
# translation: persons, ideas, things

print(lemmatizer(text))
# Current output:
personar , ideo , coser
# translation:
personify, ideo, sew

# The expected output should be:
persona, idea, cosa

# translation:
person, idea, thing

最佳答案

与英语 lemmatizer 不同,spaCy 的西类牙语 lemmatizer 根本不使用 PoS 信息。它依赖于变形动词和引理的查找列表(例如,ideo idear、idea idea、ideaider、ideamos idear 等)。它只会输出列表中的第一个匹配项,而不管其 PoS。

我实际上为西类牙语开发了 spaCy 新的基于规则的 lemmatizer,它考虑了 PoS 和形态信息(例如时态、性别、数字)。这些细粒度的规则使它比当前的查找词形还原器更准确。它很快就会发布!

同时,您可以使用斯坦福 CoreNLP 或 FreeLing。

关于python - 如何使用 SpaCy 解决西类牙语词形还原问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60534999/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com