gpt4 book ai didi

python - guess_language 模块给出 UNKNOWN

转载 作者:行者123 更新时间:2023-12-01 04:51:17 25 4
gpt4 key购买 nike

我安装了(我使用的是 Windows 7,但我使用的是带有 Python 2.7.5 的 virtualenv):

pip install pyenchant
pip install 3to2
pip install https://bitbucket.org/spirit/guess_language/downloads/guess_language-spirit-0.5.tar.bz2

并且做到了:

>>> from guess_language import guess_language
>>> guess_language("Hello World")
u'UNKNOWN'

为什么我收到u'UNKNOWN'

This is the project site .

最佳答案

我建议您使用nltk为了这。在 nltk 中会容易得多。

import nltk

STOPWORDS_DICT = {lang: set(nltk.corpus.stopwords.words(lang))
for lang in nltk.corpus.stopwords.fileids()}

def get_language(text):
words = set(nltk.wordpunct_tokenize(text.lower()))
return max(((lang, len(words & stopwords))
for lang, stopwords in STOPWORDS_DICT.items()),
key = lambda x: x[1])[0]

现在查看正在运行的代码。

In [28]: get_language('hello world')
Out[28]: 'swedish'

In [30]: get_language('stackoverflow is a nice website')
Out[30]: 'english'

问题是如果示例文本非常小,则会给出错误的结果。

代码取自this网站。

关于python - guess_language 模块给出 UNKNOWN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28412098/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com