gpt4 book ai didi

nlp - 如何在德语文本中进行词形还原?

转载 作者:行者123 更新时间:2023-12-03 23:21:04 28 4
gpt4 key购买 nike

我有一个德语文本,我想对其应用词形还原。如果词形还原是不可能的,那么我也可以接受词干。
数据:这是我的德语文本:

mails=['Hallo. Ich spielte am frühen Morgen und ging dann zu einem Freund. Auf Wiedersehen', 'Guten Tag Ich mochte Bälle und will etwas kaufen. Tschüss']
目标:应用词形还原后,它应该类似于:
mails_lemma=['Hallo. Ich spielen am früh Morgen und gehen dann zu einer Freund. Auf Wiedersehen', 'Guten Tag Ich mögen Ball und wollen etwas kaufen Tschüss']
我尝试使用 spacy

conda install -c conda-forge spacy

python -m spacy download de_core_news_md

import spacy
from spacy.lemmatizer import Lemmatizer
lemmatizer = Lemmatizer()
[lemmatizer.lookup(word) for word in mails]
我看到以下问题。
  • 我的数据是由句子而非单个单词构成的
  • 在我的情况下,即使对于单个单词,spacy lemmatization 似乎也不起作用。

  • 你能告诉我这是如何工作的吗?

    最佳答案

    只需将其包装成一个循环并获取每个 token 的引理:

    import spacy
    nlp = spacy.load('de_core_news_md')

    mails=['Hallo. Ich spielte am frühen Morgen und ging dann zu einem Freund. Auf Wiedersehen', 'Guten Tag Ich mochte Bälle und will etwas kaufen. Tschüss']

    mails_lemma = []

    for mail in mails:
    doc = nlp(mail)
    result = ' '.join([x.lemma_ for x in doc])
    mails_lemma.append(result)
    输出:
    ['hallo . ich spielen am früh Morgen und gehen dann zu einer Freund . Auf Wiedersehen ',
    'Guten tagen ich mögen Ball und wollen etwas kaufen . Tschüss']

    关于nlp - 如何在德语文本中进行词形还原?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57857240/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com