gpt4 book ai didi

python - 使用 Python 自然语言工具包阅读孟加拉语

转载 作者:太空宇宙 更新时间:2023-11-03 14:55:45 25 4
gpt4 key购买 nike

我想在 NLTK 的 CategorizedPlainCorpusReader 中阅读孟加拉语文本。对于我在 gedit 文本编辑器中的孟加拉文本文件的快照:

enter image description here

sublime 文本编辑器中的文件快照:

enter image description here

从快照中您可以看出问题所在。问题是 Unicode 组合问题(虚线环是一个死赠品)。这是阅读文本的代码段:

>>> path = os.path.expanduser('~/nltk_data/corpora/Bangla')
>>> from nltk.corpus.reader import CategorizedPlaintextCorpusReader
>>> from nltk import RegexpTokenizer
>>> word_tokenize = RegexpTokenizer("[\w']+")
>>> reader = CategorizedPlaintextCorpusReader(path,r'.*\.txt',cat_pattern=r'(.*)_.*',word_tokenizer=word_tokenize)
>>> reader.sents(categories='pos')

输出是:

enter image description here

输出应该是'একবার'而不是'একব''র'。可以做什么??提前致谢。

最佳答案

您需要为 Bengali characters 提供 Unicode 范围.

使用

word_tokenize = RegexpTokenizer("[\u0980-\u09FF']+")

撇号可以保留在字符类中。

关于python - 使用 Python 自然语言工具包阅读孟加拉语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42718792/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com