gpt4 book ai didi

text - 基于相似度的文本流聚类算法最近有什么突破吗?

转载 作者:行者123 更新时间:2023-12-03 07:02:04 25 4
gpt4 key购买 nike

我需要一个用于文本流聚类的轻量级工具。轻量级是指它没有内存,因此可以记住以前的文本条目。这里的文本流意味着字母数字和半结构化句子/短语的连续馈送,例如:任何应用程序的日志。基于相似性的聚类意味着算法应该将文本聚类到具有模式相似性的组中。例如:text1 = 'aaababac' 和 text2 = 'aaaaabac' 应分组在一起,因为它们之间只有一个字符不同。场景是:第一个 text1 出现,算法应该给它一个索引。然后 text2 出现,算法采用相同的方法为其提供索引。但条件是两个索引应该彼此接近,并且在处理 text2 时,算法不知道早期文本中出现了什么。这是一种基于模式相似性的哈希。

现在我找不到任何有用的东西。我发现最好的解决方案是 simhash。 http://matpalm.com/resemblance/simhash/

最佳答案

问题有点不明确。如果你不记得以前的条目,你将如何记住你见过的簇?特别是,通常只有当您看到大量“相似”项目时,事物才会被视为集群。如果你对频繁发生的事情和不频繁发生的事情至少有一些“内存”,你就无法做到这一点。因此,不存在真正没有任何内存的合理聚类算法。它可能不是记住文字对象,但记住摘要并没有那么不同。散列意味着至少记住之前看到的数据的一部分。但是,记住数据中具有统计显着性的随机部分比准确记住它更有好处吗?

很多发生的事情都是假装不记东西,但实际上只是以不同的方式记数据而已。但只要出版了,就算是成功了。即使它在实践中不起作用。

关于text - 基于相似度的文本流聚类算法最近有什么突破吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11153419/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com