gpt4 book ai didi

python - 当用 python 标记阿拉伯文本时,我得到奇怪的结果?

转载 作者:太空宇宙 更新时间:2023-11-04 06:07:05 25 4
gpt4 key购买 nike

我一直在与 NLTK 合作进行一项研究,以标记化阿拉伯语文本并对其进行分析。问题是当我执行此代码时:

bsm = 'بسم الله الرحمن الريحم'
wordsBsm = nltk.tokenize.wordpunct_tokenize(anas)
print " ".join(wordsBsm)

我明白了:

� � س� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �

我不知道如何解决这个问题!

最佳答案

如果您使用的是 Python 2.x,那么正如 bobince 所说,这应该可行:

bsm = u'بسم الله الرحمن الريحم'

如果您使用的是 Python 3.x,那么它应该可以工作而无需将“u”放在那里。看看Python 2's Unicode HOWTO了解更多详情。

关于python - 当用 python 标记阿拉伯文本时,我得到奇怪的结果?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21370642/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com