python - 如何使用机器学习从数据中检测英语单词-6ren

python - 如何使用机器学习从数据中检测英语单词

转载作者：行者123 更新时间：2023-11-30 09:45:45

24

4

我有包含英文短信的数据。

我想检测“用英文字母书写”但不是英文单词的消息。 (例如基于代码的规则，但我不想对规则进行硬编码)。

请注意，所使用的计算机没有有效的互联网连接(因此我无法检查在线词典)。

示例数据

“你好，你好吗”
“fjrio kjfdelf ejfe”<-- 代码(假设是西类牙语中的“你好吗”)
“我很好，谢谢”
“十倍人”
“jfrojf feoif”<-- 代码(假设它在日语中表示“hello world”)

我是机器学习的新手，所以根据我的理解，也许一种方法可以正在使用 nlp？

最佳答案

字符频率扫描是实现此目的的一种方法。

例如，对于每种语言，获取字符频率列表，答:3%乙:1%碳:0.5%d: 0.7%乙:4%等等..

然后根据静态映射评估字符串的字符频率。您可以获得该字符串是您的语言之一的可能性的概率模型。

当然，这最适合较长的字符串，因为有足够的统计数据来捕获真实频率。您还需要根据目标源的样本训练频率，例如英语推文的字母频率可能与莎士比亚作品的字母频率不同。

另一种选择是找到一种语言中最可能的 n-gram，例如，“we”是英语中常见的 2-gram。如果您扫描代码以了解这些最有可能的 n 元语法出现的频率，您通常可以检测某些内容是否使用特定语言。

我确信还有其他想法或分类器组合，但这为您提供了一个开始。也不要低估分类器集合的力量。例如，假设您提出了 3 个不同的模型，它们都不同且不相关，并假设每个模型可以正确检测英语 4 次中的 3 次 (75%)。如果您随后以同等权重的投票使用所有 3 个模型，那么如果 3 中的 3 人或 3 人中的 2 人投票为英语，则它被归类为英语，那么您的错误率将从 4 (85%) 提高到大约 3.4 倍，正确率 (=0.75^3 + 3*0.75^2*0.25)

关于python - 如何使用机器学习从数据中检测英语单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52912553/

24

4

0

文章推荐： javascript - highcharts 实体仪表图的格式数据

文章推荐： java - 如何解析 html 以获取 3 个 url 来分隔字符串？

文章推荐： machine-learning - 高成本会带来什么后果？

英语.Net多语言开发中的问题
问题与现象多语言开发是一件成本很高的事情。很多公司会退而求其次选择只开发英文版本的软件分发到不同国家，但这里仍存在不同问题。我们就遇到了这样的问题，参考下面的代码。 CultureInf
MySQL 英语、波兰语和德语排序规则
在我的 codeigniter 项目中，我使用 MySQL 作为数据库。它的排序规则是“latin1_swedish_ci”。现在我需要扩展我的网站，除了“英语”之外还存储“波兰语”、“德语”、“法语
java - 英语 - 莫尔斯翻译器
从摩尔斯语翻译成英语就像一个魅力，但是将一个短语或句子(多个单词用空格分隔)从英语翻译成摩尔斯语只会产生翻译成摩尔斯语的第一个单词。例如，如果我输入“Hello World”，翻译器只会返回 '……
database - 英语、葡萄牙语和西类牙语的国家和国籍列表？
试图在谷歌上搜索一些提供英语、葡萄牙语和西类牙语国家和国籍列表的来源……没有运气。有人知道吗？一个多语言网站的链接，其中包含三种语言的任何这些列表的表格也很棒!! 最佳答案它在 unicode
html - 如何显示合并两种语言的文本(英语+阿拉伯语)
在过去的 15 天或更长时间里，我一直在为一个奇怪的问题而苦苦挣扎。实际上我有一些阿拉伯语文本，但也有一些英文文本。 MY NAME "some arabic text" "some arabic t
excel - 日期格式英语/法语
我有这种日期格式: Mon, Nov 19, 2018 我希望它采用法语短日期格式(DD/MM/YYY) 但我无法用excel的基本日期格式解决它。有任何想法吗？最佳答案您可以使用 MATCH
密码学。英语 "normal text"?
我被要求制作一个软件来加密和解密基于字母 frequencies 的“普通英语”文本。 . 问题是我在哪里可以找到一些与官方频率匹配的文本样本？到目前为止，我已经尝试过 "War and Peace
python - 如何在kivy中制作文件选择器以支持不同语言的文件(英语，希伯来语)
我正在使用 kivy 的文件选择器，当文件夹中有一个带有希伯来语名称的文件时，它会打印出乱码......如果可能的话，我想支持不同的语言。尝试更改文件选择器中的字体名称，对我来说不起作用。你能帮我找出
javascript - 如何在弹出窗口中选择语言(英语/法语)？
Popup Click me to toggle the popup! A Simple Popup! // When the user clicks on div, open the po
python - NLTK - 缺少停用词 - 英语
我刚刚下载了最新的 NLTK 版本及其所有资源。我看到 could 和 would 没有被列为停用词。但是 should 被视为停用词。这是某种已知错误还是...？ In [7]: import
android - 我怎么知道键盘语言？ (英语/法语)
我开发了一个短信发送器应用程序，我想知道用户使用的语言。那么，当用户键入一条消息时，我如何知道他/她使用的语言？最佳答案通过使用获取输入类型管理器: InputMethodManager imm
php - 如何编写正则表达式来匹配阿拉伯语、英语、数字和空格字符？
在 PHP 中使用正则表达式，如何让用户输入阿拉伯语、英语、数字、_、- 或空格。例如，用户可以输入以下字符串: 10-abc 10-米 10-abcmo _abcمن-10 最佳答案要检查您可以
c# - 希伯来语、英语、符号的正则表达式
作为我正在编写的一个小程序的一部分，我需要过滤一个可能是“gibrish”的字符串输入(UTF8 中的任何符号)输入可以是希伯来语和/或英语，但也有所有正常的符号，如:?%$!@'_' 等等... 一
translation - 俄语-英语 Multitran 词典
也许有人知道从中检索翻译的最佳方式是什么。是否有用于阅读 Multitran 词典数据库的图书馆？我的目标是一个简单的程序，它将检索给定的俄语单词的英文翻译。最佳答案也许你可以使用 StarDic
windows - Google Chrome在Windows 10(英语)中使用哪些默认字体？
在 chrome://settings/fonts 什么是标准字体，衬线字体，无衬线字体和固定宽度字体？对于不使用Windows但希望尽可能使用相同(或相似)设置的用户，这是必需的。最佳答案 St
python - NLTK 荷兰语 alpino 至英语
我正在尝试查找四元组英语单词，我尝试更改 alpino，它将荷兰语单词下载为 en 或英语，但它不起作用任何想法？ from nltk.util import ngrams from nltk.cor
java - 我们如何存储任何文本语言(英语、印地语、西类牙语等)并从数据库中检索相同的值
这个问题在这里已经有了答案: UTF-8 all the way through (13 个答案) 关闭 8 年前。我们允许用户在文本字段中输入任何语言，并将该值存储在数据库中，当用户在浏览器中查
ruby-on-rails - “英语”全局变量在 Rails 中不起作用
我正在尝试在 Rails 中使用英语 gem，因此我可以访问 $LAST_MATCH_INFO，$~ 的隐秘版本。然而，尽管需要英语，$LAST_MATCH_INFO 始终是 nil，而 $~ 仍然有
python - (英语、Perl、Python、Ruby)逐个代码片段进行比较？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
user-interface - 英语 UI 术语 : Directory, 还是文件夹？
当您设计应用程序时(假设使用英语)，并要求用户提供目录/文件夹的路径，您是否使用术语目录或文件夹? 其中一个比另一个更容易被理解吗？其中一个比另一个更“正确”吗？最佳答案请注意，它们不是同义词。目

首页

博学

6Ren·AI

商城

python - 如何使用机器学习从数据中检测英语单词