gpt4 book ai didi

java - 如何在 Java 中分析 String 以判断它是一个单词还是完全乱码?

转载 作者:塔克拉玛干 更新时间:2023-11-01 22:09:20 24 4
gpt4 key购买 nike

我需要在 Java 中分析一个字符串,以便判断它是否包含乱码。

例如:“asdasx123ax”——乱码"dsjkklcq"- 胡言乱语“12das”——胡言乱语“samarta” - 不是乱码(请注意,它不一定是字典中的真实单词才能被视为“不是乱码”)“karatko”——不是胡言乱语

基本上,我要分析域名,我想要的算法可以给我一个特定域名是垃圾邮件/可靠/乱码域名的概率。

所以我更多地关注键盘混搭或类似猫的输入乱码。

附言我专注于英语。我会对不是 100% 精确的算法感到满意,如果它有时会出错,如果成功检测到乱码的概率(我上面定义的)> 0.6,我会认为它是满足我需要的可行算法。

也许Java中有库或算法可以解决这个问题?

最佳答案

如果您有足够“带注释”的数据,您可以使用某种监督机器学习方法,例如支持 vector 机(Java 实现:LIBSVM),已知其在文本分类任务中表现良好。

我会努力

  • 收集数据并对其进行注释
  • 基于 n-gram-features 训练 SVM
  • (可能优化 SVM 模型)
  • 使用经过训练的 SVM 检测“乱码”和“非乱码”(二进制分类)

关于java - 如何在 Java 中分析 String 以判断它是一个单词还是完全乱码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28236477/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com