gpt4 book ai didi

python - 如何使用机器学习从数据中检测英语单词

转载 作者:行者123 更新时间:2023-11-30 09:45:45 24 4
gpt4 key购买 nike

我有包含英文短信的数据。

我想检测“用英文字母书写”但不是英文单词的消息。 (例如基于代码的规则,但我不想对规则进行硬编码)。

请注意,所使用的计算机没有有效的互联网连接(因此我无法检查在线词典)

示例数据

  1. “你好,你好吗”
  2. “fjrio kjfdelf ejfe”<-- 代码(假设是西类牙语中的“你好吗”)
  3. “我很好,谢谢”
  4. “十倍人”
  5. “jfrojf feoif”<-- 代码(假设它在日语中表示“hello world”)

我是机器学习的新手,所以根据我的理解,也许一种方法可以正在使用 nlp?

最佳答案

字符频率扫描是实现此目的的一种方法。

例如,对于每种语言,获取字符频率列表,答:3%乙:1%碳:0.5%d: 0.7%乙:4%等等..

然后根据静态映射评估字符串的字符频率。您可以获得该字符串是您的语言之一的可能性的概率模型。

当然,这最适合较长的字符串,因为有足够的统计数据来捕获真实频率。您还需要根据目标源的样本训练频率,例如英语推文的字母频率可能与莎士比亚作品的字母频率不同。

另一种选择是找到一种语言中最可能的 n-gram,例如,“we”是英语中常见的 2-gram。如果您扫描代码以了解这些最有可能的 n 元语法出现的频率,您通常可以检测某些内容是否使用特定语言。

我确信还有其他想法或分类器组合,但这为您提供了一个开始。也不要低估分类器集合的力量。例如,假设您提出了 3 个不同的模型,它们都不同且不相关,并假设每个模型可以正确检测英语 4 次中的 3 次 (75%)。如果您随后以同等权重的投票使用所有 3 个模型,那么如果 3 中的 3 人或 3 人中的 2 人投票为英语,则它被归类为英语,那么您的错误率将从 4 (85%) 提高到大约 3.4 倍,正确率 (=0.75^3 + 3*0.75^2*0.25)

关于python - 如何使用机器学习从数据中检测英语单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52912553/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com