作者热门文章
- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在 sklearn
中为聚类算法使用自定义距离度量函数时,我遇到了性能瓶颈。
Run Snake Run 显示的结果是这样的:
显然问题出在 dbscan_metric
函数上。该功能看起来非常简单,我不太清楚加速它的最佳方法是什么:
def dbscan_metric(a,b):
if a.shape[0] != NUM_FEATURES:
return np.linalg.norm(a-b)
else:
return np.linalg.norm(np.multiply(FTR_WEIGHTS, (a-b)))
任何有关导致它如此缓慢的原因的想法都将不胜感激。
最佳答案
我不熟悉该函数的作用 - 但是否存在重复计算的可能性?如果是这样,您可以记住该函数:
cache = {}
def dbscan_metric(a,b):
diff = a - b
if a.shape[0] != NUM_FEATURES:
to_calc = diff
else:
to_calc = np.multiply(FTR_WEIGHTS, diff)
if not cache.get(to_calc): cache[to_calc] = np.linalg.norm(to_calc)
return cache[to_calc]
关于python - 如何提高这个微小距离Python函数的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24871845/
我是一名优秀的程序员,十分优秀!