gpt4 book ai didi

scikit-learn - 比较并行 k 均值批处理与小批处理速度

转载 作者:行者123 更新时间:2023-12-04 05:23:49 24 4
gpt4 key购买 nike

我正在尝试使用 k 均值对 1000 个维度、250k 个向量进行聚类。我正在使用的机器有 80 个双核。

只是确认一下,是否有人将 k-means 默认批处理并行版本的运行时间与 k-means mini-batch 版本进行了比较? example comparison page在 sklean 文档上没有提供太多信息,因为数据集非常小。

非常感谢您的帮助。

问候,

最佳答案

Conventional wisdom认为Mini-Batch K-Means对于超过 10,000 个样本,应该更快更有效。由于您有 250,000 个样本,如果您不想自己测试,您可能应该使用小批量。

请注意 example you referenced通过更改此行中的 n_samples 可以很容易地更改为 5000、10,000 或 20,000 点示例:

X, labels_true = make_blobs(n_samples=3000, centers=centers, cluster_std=0.7)

我同意这对于 1000 维向量不一定相同,但是由于您正在构建示例并使用 k-meansmini batch k-means并且只需要一秒钟就可以在它们之间切换......您应该对 5k、10k、15k、20k 样本的 1000 维向量进行缩放研究。

理论上,没有理由 Mini-Batch K-Means应该表现不佳 K-Means由于向量维数,我们知道它对于较大的样本量效果更好,所以我会选择袖口上的小批量,例如偏向于行动而不是研究。

关于scikit-learn - 比较并行 k 均值批处理与小批处理速度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27987832/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com