python - 光学平行度-6ren

python - 光学平行度

转载作者：行者123 更新时间：2023-12-05 01:38:30

27

4

我有以下脚本 (optics.py) 来估计具有预先计算的距离的聚类:

from sklearn.cluster import OPTICS
import numpy as np

distances = np.load(r'distances.npy')
clust = OPTICS(metric='precomputed', n_jobs=-1)
clust = clust.fit(distances)

查看 htop 结果我可以看到只使用了一个 CPU 内核

尽管事实上 scikit 在多个进程中运行集群:

为什么 n_jobs=-1 没有导致使用所有 CPU 内核？

最佳答案

我是 sklearn OPTICS 模块的主要作者。并行是困难的，因为有一个不能并行运行的排序循环；也就是说，计算量最大的任务是距离计算，这些任务可以并行运行。更具体地说，sklearn OPTICS 一次一行计算上三角距离矩阵，从“n”次距离查找开始，然后减少到“n-1，n-2”次查找，总共进行 n 平方/2 次距离计算。 .. 问题是 sklearn 中的并行性通常由 joblib 处理，它使用进程(而不是线程)，在循环中使用时创建和销毁的开销相当高。 (即，当您循环遍历数据集时，您每行创建和销毁流程工作人员，并且“n”个流程的设置/拆卸比您从 joblib 获得的并行性好处更多的开销——这就是为什么 njobs 被禁用 OPTICS )

在 OPTICS 中“强制”并行的最佳方法可能是定义一个并行运行的自定义距离度量——有关此方面的一个很好的例子，请参阅这篇文章:

https://medium.com/aspectum/acceleration-for-the-nearest-neighbor-search-on-earths-surface-using-python-513fc75984aa

上面的一个例子实际上是将距离计算强制到 GPU 上，但仍然使用 sklearn 来执行算法。

关于python - 光学平行度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59765712/

27

4

0

文章推荐： git - 如何在本地申请 Pull Request？

文章推荐： python - Lambda 过滤字典列表 Python

文章推荐： hibernate - 执行 DDL 时出错“在 Spring Data JPA 中创建表？

haskell - 平行 cabal
这个问题在这里已经有了答案: Can I get `cabal install` to use multiple cores? (3 个回答) 关闭 7 年前。在使用类似于 GNU make 的 -
webserver - 平行 plesk 文件权限
我正在尝试通过 akeeba backup 在 parallels plesk 面板中安装一个 joomla 站点。我在哪里面临文件权限问题。 An error occured Could not o
单图中的 MATLAB 多个(平行)箱线图
我在 MATLAB 中使用箱线图函数。我需要为 6 个“XTicks”绘制 6 个不同数据集的箱线图，即 x 轴上的每个刻度线应包含 6 个相应的框、晶须、中线和其域内的异常值集。我尝试通过为每个变量
python - 绘图图表上的辅助/平行 X 轴 (python)
我需要在 Kaplan Meier 图上呈现 at_risk 数字。最终结果应该与此类似: 我在渲染时遇到的问题是 No。处于危险中的患者数量位于图表底部。此处显示的值对应于 x 轴上的值。因此本质
performance - 与 Entity Framework 平行。与启动多个可执行文件相比，性能是惊人的，为什么呢？
我想知道你们中的任何一个人为什么知道我的表现糟透了吗？我正在努力实现的目标；生成220万个文件。要创建每个文件，平均需要2-5个数据库调用。我正在使用的服务器具有24个内核和190GB的RAM。
algorithm - 给定 4 个 "right"矩形(右边的矩形的边与 x 或 y 平行)，找到它们中的任何一个覆盖的区域
请帮忙。我正在研究具有此要求的算法。给定 4 个“右”矩形(右矩形的边平行于 x 或 y)，找出它们中的任何一个覆盖的区域例如，灰色区域被下图中的 4 个矩形中的任何一个覆盖。 enter ima

首页

博学

6Ren·AI

商城

python - 光学平行度