gpt4 book ai didi

python - 使用 NLTK 对阿拉伯语单词进行标记

转载 作者:IT老高 更新时间:2023-10-28 20:48:38 36 4
gpt4 key购买 nike

我正在使用 NLTK word_tokenizer 将句子拆分为单词。

我要标记这句话:

في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء 

我写的代码是:

import re
import nltk

lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"

wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)

问题是 word_tokenize 函数没有按单词分割。相反,它按字母拆分,因此输出为:

"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"

有什么想法吗?

到目前为止我已经达到了什么:

通过尝试 here 中的文本,它似乎是用字母标记的。然而,其他的分词器也正确地对其进行了分词。这是否意味着 word_tokenize 仅适用于英语?这适用于大多数 NLTK 功能吗?

最佳答案

我总是推荐使用 nltk.tokenize.wordpunct_tokenize。您可以在 http://text-processing.com/demo/tokenize/ 上试用许多 NLTK 标记器。自己看看吧。

关于python - 使用 NLTK 对阿拉伯语单词进行标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13035595/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com