gpt4 book ai didi

python - 使用 NLTK 和德语语料库从名词中获取性别

转载 作者:太空宇宙 更新时间:2023-11-03 11:21:19 27 4
gpt4 key购买 nike

我正在试验 NTLK。我的问题是图书馆是否可以检测德语名词的性别。我想收到此信息以确定文本是否是性别中立的。浏览此处获取更多信息: https://en.wikipedia.org/wiki/Gender_neutrality_in_languages_with_grammatical_gender

底层代码对​​我的句子进行了分类,但我看不到任何关于“Mitarbeiter”的性别信息。到目前为止我的代码:

sentence = """Der Mitarbeiter geht."""
tokens = nltk.word_tokenize(sentence)
tagged = nltk.pos_tag(tokens)
>>> tagged[0:6]

到目前为止,我还没有找到任何工具或脚本来完成这项工作。也许还有更好的解决方案来完成我的任务。

最佳答案

我不相信 NLTK 可以为德语做到这一点。但是,有免费的德语词法标记器可以为您完成此操作,例如 RFTagger:

http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/

输出如下:

Das     PRO.Dem.Subst.-3.Nom.Sg.Neut 
ist VFIN.Sein.3.Sg.Pres.Ind
ein ART.Indef.Nom.Sg.Masc
Testsatz N.Reg.Nom.Sg.Masc
. SYM.Pun.Sent

但是它不是在 Python 中,所以你必须使用 subprocess 来调用它。另一种选择是获取带有德语性别标签的名词的语料库,例如 Tiger 语料库:

http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.en.html

并训练 NLTK 识别性别,但我希望 RFTagger 是一种更快/更准确的解决方案。

关于python - 使用 NLTK 和德语语料库从名词中获取性别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42517201/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com