- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们一直在使用 Kmeans 来对日志进行聚类。典型的数据集有 10 mill。具有 100k+ 特征的样本。
为了找到最佳 k - 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个。在 90% 的情况下,我们最终得到的 k 介于 2 到 100 之间。目前,我们正在使用 scikit-learn Kmeans。对于这样的数据集,在具有 32 个内核和 244 RAM 的 ec2 实例上进行集群大约需要 24 小时。
我目前一直在研究更快的解决方案。
我已经测试过的内容:
Kmeans + 均值平移 Combination - 好一点(对于 k=1024 --> ~13h),但仍然很慢。
Kmcuda库 - 不支持稀疏矩阵表示。需要约 3TB RAM 才能将该数据集表示为内存中的密集矩阵。
Tensorflow (tf.contrib.factorization.python.ops.KmeansClustering()) - 今天才开始调查,但要么我做错了什么,要么我不知道如何煮它。在我使用 20k 样本和 500 个特征进行的第一次测试中,单个 GPU 上的集群比单线程 CPU 上的集群慢。
Facebook FAISS - 不支持稀疏表示。
我的列表中的下一个是 PySpark MlLib Kmeans。但它在 1 个节点上有意义吗?
在多个 GPU 上更快地训练我的用例吗?例如,带有 8 Tesla V-100 的 TensorFlow?
还有什么我没听说过的神奇图书馆吗?
或者只是简单地垂直缩放?
最佳答案
明智地选择算法。 kmeans 有聪明的算法,也有愚蠢的算法。劳合社(Lloyd's)很愚蠢,但却是迄今为止您在 GPU 中能找到的唯一一个。它通过不必要的计算浪费了大量资源。因为GPU和“大数据”人们并不关心资源效率......好的算法包括 Elkan's、Hamerly's、Ying-Yang、Exponion、Annulus 等 - 这些算法比 Lloyd's 快得多。
Sklearn 是这里更好的工具之一,因为它至少包含 Elkan 的算法。但如果我没记错的话,它可能会重复地复制你的数据。也许是成 block 的,所以你不会注意到它。当我将 sklearn 中的 k 均值与我自己在 Python 中的球形 k 均值进行比较时,我的实现速度快了很多倍。我只能使用稀疏优化来解释这一点,而 sklearn 版本则执行密集操作。但也许从那以后这已经得到了改进。
实现质量很重要。有一篇关于 k 均值基准测试的有趣论文。让我用谷歌搜索一下:
Kriegel, H. P., Schubert, E., & Zimek, A. (2017). The (black) art of runtime evaluation: Are we comparing algorithms or implementations?. Knowledge and Information Systems, 52(2), 341-378.
它们展示了相同的算法如何根据实现的差异而具有数量级的运行时差异。 Spark 在那里表现得不太好......它的开销太高,算法太慢。
您不需要所有数据。
K-means 适用于平均值。当您添加更多数据时,平均值的质量会非常缓慢地提高。因此,使用您拥有的所有数据几乎没有什么用处。只要使用足够大的样本,结果就应该具有几乎相同的质量。您也可以利用它来播种。首先在较小的集合上运行,然后添加更多数据进行细化。
由于您的数据稀疏,因此 k 均值很可能不是正确的工具。您测试过结果的质量吗?如何确保属性得到适当缩放?结果有多少是简单地由向量为 0 的位置决定的,而不是由实际的非零值决定的?如此频繁地重新运行 k 均值,结果真的会有所改善吗?如果您不再重新运行 k 均值怎么办?如果您只是在 3) 中讨论的示例上运行它会怎么样?如果您只选择 k 个随机中心并进行 0 次 k 均值迭代会怎样?你最好的剪影是什么?您很可能无法衡量差异,只是白白浪费时间和资源!那么,您如何确保结果的可靠性呢?
关于tensorflow - 在 GPU 支持下对高维数据进行更快的 Kmeans 聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58346524/
我喜欢 smartcase,也喜欢 * 和 # 搜索命令。但我更希望 * 和 # 搜索命令区分大小写,而/和 ?搜索命令遵循 smartcase 启发式。 是否有隐藏在某个地方我还没有找到的设置?我宁
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。 10年前关闭。 Improve this qu
从以下网站,我找到了执行java AD身份验证的代码。 http://java2db.com/jndi-ldap-programming/solution-to-sslhandshakeexcepti
似乎 melt 会使用 id 列和堆叠的测量变量 reshape 您的数据框,然后通过转换让您执行聚合。 ddply,从 plyr 包看起来非常相似..你给它一个数据框,几个用于分组的列变量和一个聚合
我的问题是关于 memcached。 Facebook 使用 memcached 作为其结构化数据的缓存,以减少用户的延迟。他们在 Linux 上使用 UDP 优化了 memcached 的性能。 h
在 Camel route ,我正在使用 exec 组件通过 grep 进行 curl ,但使用 ${HOSTNAME} 的 grep 无法正常工作,下面是我的 Camel 路线。请在这方面寻求帮助。
我正在尝试执行相当复杂的查询,在其中我可以排除与特定条件集匹配的项目。这是一个 super 简化的模型来解释我的困境: class Thing(models.Model) user = mod
我正在尝试执行相当复杂的查询,我可以在其中排除符合特定条件集的项目。这里有一个 super 简化的模型来解释我的困境: class Thing(models.Model) user = mod
我发现了很多嵌入/内容项目的旧方法,并且我遵循了在这里找到的最新方法(我假设):https://blog.angular-university.io/angular-ng-content/ 我正在尝试
我正在寻找如何使用 fastify-nextjs 启动 fastify-cli 的建议 我曾尝试将代码简单地添加到建议的位置,但它不起作用。 'use strict' const path = req
我正在尝试将振幅 js 与 React 和 Gatsby 集成。做 gatsby developer 时一切看起来都不错,因为它发生在浏览器中,但是当我尝试 gatsby build 时,我收到以下错
我试图避免过度执行空值检查,但同时我想在需要使代码健壮的时候进行空值检查。但有时我觉得它开始变得如此防御,因为我没有实现 API。然后我避免了一些空检查,但是当我开始单元测试时,它开始总是等待运行时异
尝试进行包含一些 NOT 的 Kibana 搜索,但获得包含 NOT 的结果,因此猜测我的语法不正确: "chocolate" AND "milk" AND NOT "cow" AND NOT "tr
我正在使用开源代码共享包在 iOS 中进行 facebook 集成,但收到错误“FT_Load_Glyph failed: glyph 65535: error 6”。我在另一台 mac 机器上尝试了
我正在尝试估计一个标准的 tobit 模型,该模型被审查为零。 变量是 因变量 : 幸福 自变量 : 城市(芝加哥,纽约), 性别(男,女), 就业(0=失业,1=就业), 工作类型(失业,蓝色,白色
我有一个像这样的项目布局 样本/ 一种/ 源/ 主要的/ java / java 资源/ .jpg 乙/ 源/ 主要的/ java / B.java 资源/ B.jpg 构建.gradle 设置.gr
如何循环遍历数组中的多个属性以及如何使用map函数将数组中的多个属性显示到网页 import React, { Component } from 'react'; import './App.css'
我有一个 JavaScript 函数,它进行 AJAX 调用以返回一些数据,该调用是在选择列表更改事件上触发的。 我尝试了多种方法来在等待时显示加载程序,因为它当前暂停了选择列表,从客户的 Angul
可能以前问过,但找不到。 我正在用以下形式写很多语句: if (bar.getFoo() != null) { this.foo = bar.getFoo(); } 我想到了三元运算符,但我认
我有一个表单,在将其发送到 PHP 之前我正在执行一些验证 JavaScript,验证后的 JavaScript 函数会发布用户在 中输入的文本。页面底部的标签;然而,此消息显示短暂,然后消失...
我是一名优秀的程序员,十分优秀!