gpt4 book ai didi

python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK

转载 作者:太空狗 更新时间:2023-10-29 18:05:21 29 4
gpt4 key购买 nike

最近我接触了 NLP,我尝试使用 NLTKTextBlob用于分析文本。我想开发一个分析旅行者评论的应用程序,因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作:词性标注和词形还原。我已经看到,在 NLTK 中,可以像这样为句子标记化选择正确的语言:

tokenizer = nltk.data.load('tokenizers/punkt/PY3/italian.pickle')

我还没有找到正确的方法来为不同语言的 POS 标记和 Lemmatizer 设置语言。如何为意大利语、法语、西类牙语或德语等非英语文本设置正确的语料库/词典?我还看到可以导入“TreeBank”或“WordNet”模块,但我不明白如何使用它们。否则,我在哪里可以找到相应的语料库?

你能给我一些建议或引用吗?请注意我不是 NLTK 专家。

非常感谢。

最佳答案

如果您正在寻找另一个多语言词性标注器,您可能想试试 RDRPOSTagger :一个强大、易于使用且独立于语言的工具包,用于 POS 和形态标记。在 this paper 中查看实验结果,包括 13 种语言的性能速度和标记准确性. RDRPOSTagger 现在支持保加利亚语、捷克语、荷兰语、英语、法语、德语、印地语、意大利语、葡萄牙语、西类牙语、瑞典语、泰语和越南语的预训练 POS 和形态标记模型。 RDRPOSTagger 还支持 40 种语言的预训练通用词性标注模型。

在 Python 中,您可以利用预训练模型将原始未标记文本语料库标记为:

python RDRPOSTagger.py 标签 PATH-TO-PRETRAINED-MODEL PATH-TO-LEXICON PATH-TO-RAW-TEXT-CORPUS

示例:python RDRPOSTagger.py 标签 ../Models/POS/German.RDR ../Models/POS/German.DICT ../data/GermanRawTest

如果您想使用 RDRPOSTagger 进行编程,请遵循 pSCRDRTagger 包中的 RDRPOSTagger.py 模块中的代码行 92-98。这是一个例子:

r = RDRPOSTagger()
r.constructSCRDRtreeFromRDRfile("../Models/POS/German.RDR") #Load POS tagging model for German
DICT = readDictionary("../Models/POS/German.DICT") #Load a German lexicon
r.tagRawSentence(DICT, "Die Reaktion des deutschen Außenministers zeige , daß dieser die außerordentlich wichtige Rolle Irans in der islamischen Welt erkenne .")

r = RDRPOSTagger()
r.constructSCRDRtreeFromRDRfile("../Models/POS/French.RDR") # Load POS tagging model for French
DICT = readDictionary("../Models/POS/French.DICT") # Load a French lexicon
r.tagRawSentence(DICT, "Cette annonce a fait l' effet d' une véritable bombe . ")

关于python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32740988/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com