gpt4 book ai didi

spacy - Spacy 中德语词形还原的惊人结果

转载 作者:行者123 更新时间:2023-12-04 14:50:35 27 4
gpt4 key购买 nike

我想在 Spacy 中使用德语 lemmatizer,但我对结果感到非常惊讶:

import spacy

nlp = spacy.load("de_dep_news_trf")
[token.lemma_ for token in nlp('ich du er sie mein dein sein ihr unser')]
['ich', 'du', 'ich', 'ich', 'meinen', 'mein', 'mein', 'mein', 'sich']
我不确定我可以使用它:
vielen dank für deinen sehr guten tweet
变成
viel danken für mein sehr gut tweet
这显然改变了句子的意思。
这是预期的吗?我是否遗漏了一个调优/配置,可以让这个词形还原器不那么“激进”?

最佳答案

当前 (v3.1) 默认的德语词形还原器不是很好。这是一个非常简单的查找词形还原器,其查找表中有一些有问题的条目,但考虑到德国预训练管道的许可限制,没有其他好的替代方案。 (我们确实有一些关于统计词形还原法的内部工作正在进行中,但我不确定它何时会发布。)
如果引理对您的任务很重要,那么最好的建议是使用不同的引理器。根据您的任务/规模/速度/许可证要求,您可以考虑使用来自 spacy-stanza 的德国型号或第三方库,如 spacy-iwnlp (目前仅适用于 spacy v2,但更新 v3 可能并不难)。

关于spacy - Spacy 中德语词形还原的惊人结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69125678/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com