- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有以下脚本 (optics.py
) 来估计具有预先计算的距离的聚类:
from sklearn.cluster import OPTICS
import numpy as np
distances = np.load(r'distances.npy')
clust = OPTICS(metric='precomputed', n_jobs=-1)
clust = clust.fit(distances)
查看 htop 结果我可以看到只使用了一个 CPU 内核
尽管事实上 scikit 在多个进程中运行集群:
为什么 n_jobs=-1
没有导致使用所有 CPU 内核?
最佳答案
我是 sklearn OPTICS 模块的主要作者。并行是困难的,因为有一个不能并行运行的排序循环;也就是说,计算量最大的任务是距离计算,这些任务可以并行运行。更具体地说,sklearn OPTICS 一次一行计算上三角距离矩阵,从“n”次距离查找开始,然后减少到“n-1,n-2”次查找,总共进行 n 平方/2 次距离计算。 .. 问题是 sklearn 中的并行性通常由 joblib 处理,它使用进程(而不是线程),在循环中使用时创建和销毁的开销相当高。 (即,当您循环遍历数据集时,您每行创建和销毁流程工作人员,并且“n”个流程的设置/拆卸比您从 joblib 获得的并行性好处更多的开销——这就是为什么 njobs 被禁用 OPTICS )
在 OPTICS 中“强制”并行的最佳方法可能是定义一个并行运行的自定义距离度量——有关此方面的一个很好的例子,请参阅这篇文章:
上面的一个例子实际上是将距离计算强制到 GPU 上,但仍然使用 sklearn 来执行算法。
关于python - 光学平行度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59765712/
这个问题在这里已经有了答案: Can I get `cabal install` to use multiple cores? (3 个回答) 关闭 7 年前。 在使用类似于 GNU make 的 -
我正在尝试通过 akeeba backup 在 parallels plesk 面板中安装一个 joomla 站点。我在哪里面临文件权限问题。 An error occured Could not o
我在 MATLAB 中使用箱线图函数。我需要为 6 个“XTicks”绘制 6 个不同数据集的箱线图,即 x 轴上的每个刻度线应包含 6 个相应的框、晶须、中线和其域内的异常值集。我尝试通过为每个变量
我需要在 Kaplan Meier 图上呈现 at_risk 数字。 最终结果应该与此类似: 我在渲染时遇到的问题是 No。处于危险中的患者数量位于图表底部。此处显示的值对应于 x 轴上的值。因此本质
我想知道你们中的任何一个人为什么知道我的表现糟透了吗? 我正在努力实现的目标; 生成220万个文件。要创建每个文件,平均需要2-5个数据库调用。 我正在使用的服务器具有24个内核和190GB的RAM。
请帮忙。我正在研究具有此要求的算法。 给定 4 个“右”矩形(右矩形的边平行于 x 或 y),找出它们中的任何一个覆盖的区域 例如,灰色区域被下图中的 4 个矩形中的任何一个覆盖。 enter ima
我是一名优秀的程序员,十分优秀!