作者热门文章
- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
如何使用 NLTK for Persian 的功能?
例如:“索引”。当我使用“一致性”时,答案是“不匹配”,但是我的文本中有一致性参数。
输入非常简单。它包含“hello سلام”。当“concordance”的参数是“hello”时,答案是正确的,但是,如果它是“سلام”,则答案是“不匹配”。预期的输出对我来说是“显示 1 场比赛中的 1 场比赛”。
import nltk
from urllib import urlopen
url = "file:///home/.../1.html"
raw = urlopen(url).read()
raw = nltk.clean_html(raw)
tokens = nltk.word_tokenize(raw)
tokens = tokens[:12]
text = nltk.Text(tokens)
print text.concordance('سلام')
最佳答案
强烈推荐用于 NLP 的 python Persian 库:https://github.com/sobhe/hazm
用法:
>>> from __future__ import unicode_literals
>>> from hazm import Normalizer
>>> normalizer = Normalizer()
>>> normalizer.normalize('اصلاح نويسه ها و استفاده از نیمفاصله پردازش را آسان مي كند')
'اصلاح نویسهها و استفاده از نیمفاصله پردازش را آسان میکند'
>>> from hazm import sent_tokenize, word_tokenize
>>> sent_tokenize('ما هم برای وصل کردن آمدیم! ولی برای پردازش، جدا بهتر نیست؟')
['ما هم برای وصل کردن آمدیم!', 'ولی برای پردازش، جدا بهتر نیست؟']
>>> word_tokenize('ولی برای پردازش، جدا بهتر نیست؟')
['ولی', 'برای', 'پردازش', '،', 'جدا', 'بهتر', 'نیست', '؟']
>>> from hazm import Stemmer, Lemmatizer
>>> stemmer = Stemmer()
>>> stemmer.stem('کتابها')
'کتاب'
>>> lemmatizer = Lemmatizer()
>>> lemmatizer.lemmatize('میروم')
'رفت#رو'
>>> from hazm import POSTagger
>>> tagger = POSTagger()
>>> tagger.tag(word_tokenize('ما بسیار کتاب میخوانیم'))
[('ما', 'PR'), ('بسیار', 'ADV'), ('کتاب', 'N'), ('میخوانیم', 'V')]
>>> from hazm import DependencyParser
>>> parser = DependencyParser(tagger=POSTagger())
>>> parser.parse(word_tokenize('زنگها برای که به صدا درمیآید؟'))
<DependencyGraph with 8 nodes>
关于python - 波斯语 NLTK,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17684930/
我使用 Highcharts 绘制一些图表。我的语言是波斯语(波斯语),我想用波斯数字绘制图表。但是在 Highcharts 中,所有数字都以英文显示。 有没有办法用波斯语显示数字(所有数字:yaxi
我是一名优秀的程序员,十分优秀!