gpt4 book ai didi

java - 如何使用算法对未知短信进行分组?

转载 作者:塔克拉玛干 更新时间:2023-11-02 19:33:56 26 4
gpt4 key购买 nike

以下是我需要组合在一起的示例数据集,如果您仔细观察,它们大多是相似的文本行,但具有 person id 或 ID 的差别非常小。

Unexpected error:java.lang.RuntimeException:Data not found for person 1X99999123 . Clear set not defined . Dump
Unexpected error:java.lang.RuntimeException:Data not found for person 2X99999123 . Clear set not defined . Dump
Unexpected error:java.lang.RuntimeException:Data not found for person 31X9393912 . Clear set not defined . Dump
Unexpected error:java.lang.RuntimeException:Data not found for person 36X9393912 . Clear set not defined . Dump
Exception in thread "main" javax.crypto.BadPaddingException: ID 1 Given final block not properly padded
Exception in thread "main" javax.crypto.BadPaddingException: ID 2 Given final block not properly padded
Unexpected error:java.lang.RuntimeException:Data not found for person 5 . Clear set not defined . Dump
Unexpected error:java.lang.RuntimeException:Data not found for person 6 . Clear set not defined . Dump
Exception in thread "main" java.lang.NullPointerException at TripleDESTest.encrypt(TripleDESTest.java:18)

我想把它们分组,这样最终的结果就像

Unexpected error:java.lang.RuntimeException:Data not found - 6
Exception in thread "main" javax.crypto.BadPaddingException - 2
Exception in thread "main" java.lang.NullPointerException at - 1

是否有现有的 API 或算法可用于处理此类情况?

提前致谢。干杯沙克蒂

最佳答案

问题被标记为机器学习,所以我将建议分类方法。

您可以标记每个字符串,并将训练集中的所有标记用作可能的 boolean 特征 - 如果实例包含此标记,则该实例具有该特征。

现在,使用这些数据,您可以构建(例如)C4.5 - 一个 decision tree从数据。确保树在构建后使用修剪,并且每片叶子的最小示例数 >1。

一旦构建了树,“聚类”就由树本身完成了!每片叶子都包含被认为彼此相似的示例。

您现在可以通过遍历分类树并将存储在每个叶子中的样本提取到其相关集群中来提取此数据。

注意事项:

  • 对于您提供的示例数据,此算法将失败,因为如果一个消息是唯一的(您的示例中的 NPE),它就无法很好地处理 - 它可能与 BadPaddingException 在同一叶中。
  • 无需重新发明轮子 - 您可以使用 weka - Java 中的开源机器学习库,或其他现有的算法库
  • 除了将标记用作二进制特征外,它们还可以是数字特征,您可以使用字符串中标记的位置,它是第 1 个还是第 10 个标记?

关于java - 如何使用算法对未知短信进行分组?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10433177/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com