gpt4 book ai didi

python - 确定文本是否为英文?

转载 作者:太空狗 更新时间:2023-10-29 20:16:29 25 4
gpt4 key购买 nike

我同时使用 NltkScikit Learn做一些文本处理。但是,在我的文档列表中,我有一些不是英文的文档。例如,以下可能为真:

[ "this is some text written in English", 
"this is some more text written in English",
"Ce n'est pas en anglais" ]

出于我的分析目的,我希望在预处理过程中删除所有非英语句子。但是,有没有好的方法来做到这一点?我一直在谷歌搜索,但找不到任何能让我识别字符串是否为英文的具体信息。这是 NltkScikit learn 中未提供的功能吗? 编辑 我见过类似 this 的问题和 this但两者都是针对单个词的……不是"file"。我是否必须遍历句子中的每个单词以检查整个句子是否为英文?

我正在使用 Python,所以 Python 中的库会更好,但如果需要我可以切换语言,只是认为 Python 最适合这个。

最佳答案

有一个名为 langdetect 的库。它是从此处提供的 Google 语言检测移植而来的:

https://pypi.python.org/pypi/langdetect

开箱即用,支持 55 种语言。

关于python - 确定文本是否为英文?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43377265/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com