gpt4 book ai didi

java - 大数据集的短文本聚类 - 用户分析

转载 作者:太空宇宙 更新时间:2023-11-04 10:12:49 25 4
gpt4 key购买 nike

让我解释一下我想做什么:

输入

一个 csv 文件,其中数百万行包含其中的每一行:用户id 以及包含该用户使用的关键字列表的字符串,以空格分隔。第二个字段(字符串)的格式并不那么重要,我可以根据我的需要更改它,例如添加这些关键字的计数。数据来自Twitter数据库:用户是Twitter用户,关键字是从他们的推文中提取的“有意义”的单词(如何并不重要)。

示例行

当前 csv 的单行如下所示:
(用户 ID、关键字)

"1627498372", " play house business card"  

目标

给定输入,我希望根据用户在 java 中使用的关键字对用户进行集群,以便不同的集群以某种方式代表具有相似兴趣的用户,因此相似的关键字使用,而不使用机器学习技术、自然语言处理或 MapReduce 等并行化技术。我在网上搜索了很多聚类算法库,如 BIRCH、BFR、CURE、ROCK、CLARANS 等,但似乎没有一个能够满足我的需求,因为它们要么是针对空间点的,要么是使用机器学习模型的,要么是处理大型数据集的。

因此,我在这里问您是否知道此类聚类算法名称/库/可合理实现的文本伪代码(最好是 jar),或者可以轻松修改以使用字符串。

希望一切都清楚。

更新

当我在等待回复时,我发现了 python 的 scikitlearn 库,特别是 minibatchkmeans,我现在正在尝试用它做一些事情......所以只是作为更新,如果您在 python 中发现某些内容,随时分享

最佳答案

您应该考虑频繁项集挖掘来查找流行的关键字组合,而不是聚类(有多少个聚类?不适合任何聚类的用户怎么办?)。

关于java - 大数据集的短文本聚类 - 用户分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52115697/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com