gpt4 book ai didi

python - 用于民族的 Python 中的智能词干提取/词形还原

转载 作者:太空宇宙 更新时间:2023-11-03 12:03:04 26 4
gpt4 key购买 nike

我正在使用 Python,我想找到一些主要指国家的词的词根。证明我需要什么的一些例子是:

  • 西类牙语应该给我西类牙。
  • 英语应该给我英格兰。
  • 美国人应该给我美国。
  • 尼日利亚应该给我尼日利亚。
  • Greeks(复数)应该给我 Greece。
  • 波多黎各人(复数)应该给我波多黎各。
  • 葡萄牙语应该给我葡萄牙语。

我对 NLTK 模块的 Porter、Lancaster 和 Snowball 词干提取器进行了一些试验。但是波特和雪球根本不换代币,而兰开斯特太激进了。例如,American 的 Lancaster 词干是“Am”,这个词干得非常糟糕。我也用 WordNet lemmatizer 玩过一些,但没有成功。

有没有办法得到上述结果,即使它只适用于国家?

最佳答案

您可能想查看 Unicode 的 CLDR(通用语言环境数据存储库): http://cldr.unicode.org/

它包含可能有用的地区和语言列表,因为您可以使用它们共享的标准 ISO 639 代码(en、de、fr 等)将它们映射在一起。

这是一个有用的 JSON 存储库:

https://github.com/unicode-cldr/cldr-localenames-full/tree/master/main/en

查看那里的 territories.jsonlanguages.json 文件。

关于python - 用于民族的 Python 中的智能词干提取/词形还原,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42027252/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com