作者热门文章
- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我需要在 Java 中分析一个字符串,以便判断它是否包含乱码。
例如:“asdasx123ax”——乱码"dsjkklcq"- 胡言乱语“12das”——胡言乱语“samarta” - 不是乱码(请注意,它不一定是字典中的真实单词才能被视为“不是乱码”)“karatko”——不是胡言乱语
基本上,我要分析域名,我想要的算法可以给我一个特定域名是垃圾邮件/可靠/乱码域名的概率。
所以我更多地关注键盘混搭或类似猫的输入乱码。
附言我专注于英语。我会对不是 100% 精确的算法感到满意,如果它有时会出错,如果成功检测到乱码的概率(我上面定义的)> 0.6,我会认为它是满足我需要的可行算法。
也许Java中有库或算法可以解决这个问题?
最佳答案
如果您有足够“带注释”的数据,您可以使用某种监督机器学习方法,例如支持 vector 机(Java 实现:LIBSVM),已知其在文本分类任务中表现良好。
我会努力
关于java - 如何在 Java 中分析 String 以判断它是一个单词还是完全乱码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28236477/
我是一名优秀的程序员,十分优秀!