gpt4 book ai didi

用于阿拉伯语文本的 Python ISRIStemmer

转载 作者:行者123 更新时间:2023-12-03 22:56:16 24 4
gpt4 key购买 nike

我在 IDLE(Python) 上运行以下代码,我想输入阿拉伯语字符串并获取它的词干,但实际上它不起作用

>>> from nltk.stem.isri import ISRIStemmer
>>> st = ISRIStemmer()
>>> w= 'حركات'
>>> join = w.decode('Windows-1256')
>>> print st.stem(join).encode('Windows-1256').decode('utf-8')
运行它的结果是 w 中的相同文本,即 'حركات',它不是词干
但是什么时候执行以下操作:
>>> print st.stem(u'اعلاميون')
结果成功并返回词干,即 'علم'
为什么将一些单词传递给 stem() 函数不会返回词干?

最佳答案

上面的代码在 Python 3 中不起作用,因为我们正在尝试解码已经解码的对象。因此,不再需要从 UTF-8 解码。

这是在 Python 3 中应该可以正常工作的新代码。

import nltk
from nltk.stem.isri import ISRIStemmer
st = ISRIStemmer()
w= 'حركات'
print(st.stem(w))

关于用于阿拉伯语文本的 Python ISRIStemmer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21492480/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com