- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在使用 12 个变量对大约 40 万个观测值运行 K 均值聚类。最初,当我用 Kmeans 代码运行单元时,它会在 2 分钟后弹出一条消息,说内核被中断并将重新启动。然后它需要很长时间,就像内核死了一样,代码将不再运行。
所以我尝试了 125k 个观察结果,结果相同。的变量。但我仍然收到同样的信息。
这是什么意思?这是否意味着 ipython notebook 无法在 125k 观测值上运行 kmeans 并杀死内核?
如何解决?到今天为止,这对我来说非常重要。 :(
请指教。
我使用的代码:
从 sklearn.cluster 导入 KMeans从 sklearn.metrics 导入 silhouette_score
# Initialize the clusterer with n_clusters value and a random generator
# seed of 10 for reproducibility.
kmeans=KMeans(n_clusters=2,init='k-means++',n_init=10, max_iter=100)
kmeans.fit(Data_sampled.ix[:,1:])
cluster_labels = kmeans.labels_
# The silhouette_score gives the average value for all the samples.
# This gives a perspective into the density and separation of the formed
# clusters
silhouette_avg = silhouette_score(Data_sampled.ix[:,1:],cluster_labels)
最佳答案
根据一些调查,这可能与 iPython Notebook/Jupyter 无关。这似乎是 sklearn
的问题,它可以追溯到 numpy
的问题。查看相关github问题 sklearn
here和 here ,以及潜在的 numpy 问题 here .
最终,计算 Silhouette Score 需要计算一个非常大的距离矩阵,并且距离矩阵似乎在您的系统上为大量行占用了太多内存。例如,在类似计算的两次运行期间查看我的系统(OSX,8GB ram)上的内存压力 - 第一个尖峰是具有 10k 记录的 Silhouette Score 计算,第二个......高原......具有 40k 记录:
根据相关的 SO 回答 here ,您的内核进程可能会被操作系统杀死,因为它占用了太多内存。
最终,这将需要对 sklearn
和/或 numpy
的底层代码库进行一些修复。您可以在此期间尝试的一些选项:
或者,如果你比我聪明并且有空闲时间,可以考虑尝试为 sklearn
和/或 numpy
贡献一个修复 :)
关于python - IPython 笔记本内核在运行 Kmeans 时死机,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32573948/
我搜索了又搜索,但对我帮助不大,因此发布了新问题。平台Ubuntu 11.10 服务器 64 位虚拟机 1.7.0_03 Tomcat 7 配置中没有什么特别之处——前端服务器是使用 ajp 连接器的
我的整个系统(Ubuntu 18.04)总是在我的 c 程序不断将一些日志写入文件大约一小时后卡住。创建的每个文件大约为 100 到 200MB,系统停机前这些文件的总量约为 40-60GB。通常,此
我现在遇到一个问题,我什至不知道如何正确调查。欢迎并感谢任何有关我如何获得更多信息的建议。 我的公司销售以 WinXP PC 为核心的产品。该产品的任务之一是能够按需启动视频播放器——在本例中为 VL
我在 Mac 上用 python 编写了一个程序,打算在 Raspberry Pi 上运行。 它包括一个会变化的背景图片,以及一个开始/停止音乐播放的按钮。 该程序使用pygame。 在 Mac 上,
刚刚将 npm 小更新到最新版本(我不记得它是什么,因为 npm 不再有效 - 因此问题)但我认为我的更新前安装的版本是5.6.0。但这可能是错误的。 无论如何在运行之后...... sudo npm
我不明白为什么这个应用程序在 send 时死掉。这是服务器的代码: #include #include #include #include #include #include #defin
当我通过 Mobaxterm 连接到 EC2 实例时,一段时间后我的 jupyter notebook 内核失去连接。 并且一些非常耗时的操作/(当前正在运行的任务)需要一次又一次地重新执行并且永无止
我是一名优秀的程序员,十分优秀!