python - IPython 笔记本内核在运行 Kmeans 时死机-6ren

python - IPython 笔记本内核在运行 Kmeans 时死机

转载作者：太空狗更新时间：2023-10-30 01:28:22

24

4

我正在使用 12 个变量对大约 40 万个观测值运行 K 均值聚类。最初，当我用 Kmeans 代码运行单元时，它会在 2 分钟后弹出一条消息，说内核被中断并将重新启动。然后它需要很长时间，就像内核死了一样，代码将不再运行。

所以我尝试了 125k 个观察结果，结果相同。的变量。但我仍然收到同样的信息。

这是什么意思？这是否意味着 ipython notebook 无法在 125k 观测值上运行 kmeans 并杀死内核？

如何解决？到今天为止，这对我来说非常重要。 :(

请指教。

我使用的代码:

从 sklearn.cluster 导入 KMeans从 sklearn.metrics 导入 silhouette_score

    # Initialize the clusterer with n_clusters value and a random generator
    # seed of 10 for reproducibility.
kmeans=KMeans(n_clusters=2,init='k-means++',n_init=10, max_iter=100)
kmeans.fit(Data_sampled.ix[:,1:])
cluster_labels = kmeans.labels_
    # The silhouette_score gives the average value for all the samples.
    # This gives a perspective into the density and separation of the formed
    # clusters
silhouette_avg = silhouette_score(Data_sampled.ix[:,1:],cluster_labels)

最佳答案

根据一些调查，这可能与 iPython Notebook/Jupyter 无关。这似乎是 sklearn 的问题，它可以追溯到 numpy 的问题。查看相关github问题 sklearn here和 here ，以及潜在的 numpy 问题 here .

最终，计算 Silhouette Score 需要计算一个非常大的距离矩阵，并且距离矩阵似乎在您的系统上为大量行占用了太多内存。例如，在类似计算的两次运行期间查看我的系统(OSX，8GB ram)上的内存压力 - 第一个尖峰是具有 10k 记录的 Silhouette Score 计算，第二个......高原......具有 40k 记录:

根据相关的 SO 回答 here ，您的内核进程可能会被操作系统杀死，因为它占用了太多内存。

最终，这将需要对 sklearn 和/或 numpy 的底层代码库进行一些修复。您可以在此期间尝试的一些选项:

关闭计算机上运行的所有无关程序(spotify、slack 等)，希望释放足够的内存，并在脚本运行时密切监控内存
在内存比你的机器多的临时远程服务器上运行计算，看看是否有帮助(尽管我认为内存使用至少是样本数量的多项式，这可能行不通)<
使用完整数据集训练分类器，然后使用数据的随机子集计算剪影分数。 (大多数人似乎能够通过 20-30k 的观察来解决这个问题)

或者，如果你比我聪明并且有空闲时间，可以考虑尝试为 sklearn 和/或 numpy 贡献一个修复 :)

关于python - IPython 笔记本内核在运行 Kmeans 时死机，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32573948/

24

4

0

文章推荐： python - 单独目录中的 pytest fixtures

文章推荐： c# - .net 世界中的 EDI 等价物

文章推荐： c# - .NET Compact Framework 中标签/文本框的自动调整大小

文章推荐： c# - C# 程序员的 COBOL Copybook 规范

java - Tomcat7 死机，日志中没有任何内容
我搜索了又搜索，但对我帮助不大，因此发布了新问题。平台Ubuntu 11.10 服务器 64 位虚拟机 1.7.0_03 Tomcat 7 配置中没有什么特别之处——前端服务器是使用 ajp 连接器的
c - 在 C 中写入大量文件后 Ubuntu 死机
我的整个系统(Ubuntu 18.04)总是在我的 c 程序不断将一些日志写入文件大约一小时后卡住。创建的每个文件大约为 100 到 200MB，系统停机前这些文件的总量约为 40-60GB。通常，此
java - 从 Java 内部调用时 VLC 死机
我现在遇到一个问题，我什至不知道如何正确调查。欢迎并感谢任何有关我如何获得更多信息的建议。我的公司销售以 WinXP PC 为核心的产品。该产品的任务之一是能够按需启动视频播放器——在本例中为 VL
python - 当 python 开始运行时，Raspberry Pi 死机
我在 Mac 上用 python 编写了一个程序，打算在 Raspberry Pi 上运行。它包括一个会变化的背景图片，以及一个开始/停止音乐播放的按钮。该程序使用pygame。在 Mac 上，
node.js - 更新后 NPM 死机 - 找不到模块 (OSX)
刚刚将 npm 小更新到最新版本(我不记得它是什么，因为 npm 不再有效 - 因此问题)但我认为我的更新前安装的版本是5.6.0。但这可能是错误的。无论如何在运行之后...... sudo npm
c - 如果使用 Ctrl+c 关闭客户端，服务器会在 `send` 死机
我不明白为什么这个应用程序在 send 时死掉。这是服务器的代码: #include #include #include #include #include #include #defin
amazon-web-services - Jupyter 笔记本内核在一段时间后断开连接/死机，无法重新连接到亚马逊 EC2 实例并完成(当前正在运行)操作。
当我通过 Mobaxterm 连接到 EC2 实例时，一段时间后我的 jupyter notebook 内核失去连接。并且一些非常耗时的操作/(当前正在运行的任务)需要一次又一次地重新执行并且永无止

首页

博学

6Ren·AI

商城

python - IPython 笔记本内核在运行 Kmeans 时死机