gpt4 book ai didi

python - 如何在 Python 中使用 pl196x 从 nltk for Polish 中提取引理?

转载 作者:太空宇宙 更新时间:2023-11-04 10:26:46 24 4
gpt4 key购买 nike

我写了一些基本程序,我想提取波兰语单词的引理,这是非常重要的,因为波兰语使用屈折变化。

我正在创建一个简单的程序来加载数据并将单词转换为引理,但不知道该怎么做:

from nltk import corpus

pl = corpus.pl196x
print dir(pl)
print iter(pl.tagged_words()).next()

例如我想做这样的词形还原(忽略一些词形还原可能是模棱两可的——这在波兰语中是正常的):

kot, kota, kota, kotu, kotem, kocie, kocie == kot (singular male)
kotka, kotki, kotkę, kotce, kotką, kotce, kotka == kot (singular female!)
kociątko, kociątka, kociątko, kociątku, kociątkiem, kociątku, kociątko == kot (singular neutral)
etc. (plural males, plural females, plural neutrals)

如何使用 pl196x 在或 nltk 中完成这样的工作。


语料库的源数据包含这样的词形变化和引理——所以这是可能的,但如何访问它:

<w id="pu147125" lemma="kot" ana="SSNA---------P">kot</w>
<w id="pr021633" lemma="kot" ana="SSAA---------P">kota</w>
etc.

最佳答案

不知道NLTK本身是否可以。当我遇到类似的问题时,我为此使用了 Morfeusz ( http://sgjp.pl/morfeusz/ )。虽然我只使用了 C 版本的库,但它有一个 Python 绑定(bind) ( http://jwilk.net/software/python-morfeusz )。

关于python - 如何在 Python 中使用 pl196x 从 nltk for Polish 中提取引理?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28930165/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com