gpt4 book ai didi

r - Snowball 的意大利 Stemmer 替代品

转载 作者:行者123 更新时间:2023-12-01 02:44:49 26 4
gpt4 key购买 nike

我正在尝试用 R 分析意大利语文本。
正如您在文本分析中所做的那样,我已经删除了所有标点符号、特殊字符和意大利语停用词。
但是我对 Stemming 有一个问题:只有一个意大利词干提取器(Snowball),但它不是很精确。

为了进行词干提取,我使用了 tm图书馆,尤其是 stemDocument函数,我也尝试使用 SnowballC库,两者都导致相同的结果。

  stemDocument(content(myCorpus[[1]]),language = "italian")

问题是由此产生的词干提取不是很精确。还有其他更精确的意大利词干分析器吗?
或者有没有办法通过添加新术语来实现 TM 库中已经存在的词干提取?

最佳答案

您可以查看的另一种选择是此人的软件包,他有许多不同语言的软件包。这是 Italian 的链接.

它是否对您的案件有帮助是另一回事,但也可以通过 corpus 实现。包裹。如果您向下移动到 Dictionary Stemmer section,他们的文档中也会提供一个示例示例(对于英语用例,针对意大利语进行调整)。

或者,与上述方式类似,您也可以考虑来自 Python 库如 NLTK 的词干分析器或词形还原器(如果您还没有考虑过词形还原器,它们值得考虑)。或 Spacy并检查您是否获得了更好的结果。毕竟,它们只是包含根词与子词映射的文件。下载它们,根据您的要求微调文件,并根据您的方便通过自定义函数传递映射来使用映射。

关于r - Snowball 的意大利 Stemmer 替代品,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57592503/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com