- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要有效地计算给定数组中每个 x,y
点到其他每个 x,y
点的欧几里得加权距离在另一个数组中。这是我的代码,可以按预期工作:
import numpy as np
import random
def rand_data(integ):
'''
Function that generates 'integ' random values between [0.,1.)
'''
rand_dat = [random.random() for _ in range(integ)]
return rand_dat
def weighted_dist(indx, x_coo, y_coo):
'''
Function that calculates *weighted* euclidean distances.
'''
dist_point_list = []
# Iterate through every point in array_2.
for indx2, x_coo2 in enumerate(array_2[0]):
y_coo2 = array_2[1][indx2]
# Weighted distance in x.
x_dist_weight = (x_coo-x_coo2)/w_data[0][indx]
# Weighted distance in y.
y_dist_weight = (y_coo-y_coo2)/w_data[1][indx]
# Weighted distance between point from array_1 passed and this point
# from array_2.
dist = np.sqrt(x_dist_weight**2 + y_dist_weight**2)
# Append weighted distance value to list.
dist_point_list.append(round(dist, 8))
return dist_point_list
# Generate random x,y data points.
array_1 = np.array([rand_data(10), rand_data(10)], dtype=float)
# Generate weights for each x,y coord for points in array_1.
w_data = np.array([rand_data(10), rand_data(10)], dtype=float)
# Generate second larger array.
array_2 = np.array([rand_data(100), rand_data(100)], dtype=float)
# Obtain *weighted* distances for every point in array_1 to every point in array_2.
dist = []
# Iterate through every point in array_1.
for indx, x_coo in enumerate(array_1[0]):
y_coo = array_1[1][indx]
# Call function to get weighted distances for this point to every point in
# array_2.
dist.append(weighted_dist(indx, x_coo, y_coo))
最终列表 dist
包含与第一个数组中的点一样多的子列表,每个子列表中的元素与第二个数组中的点一样多(加权距离)。
我想知道是否有办法让这段代码更有效率,或许可以使用 cdist函数,因为当数组有很多元素(在我的例子中它们有)并且当我必须检查很多数组的距离(我也有)时,这个过程变得非常昂贵
最佳答案
@Evan 和@Martinis Group 走在正确的轨道上 - 扩展 Evan 的答案,这里有一个函数使用广播快速计算 n 维加权欧氏距离,无需 Python 循环:
import numpy as np
def fast_wdist(A, B, W):
"""
Compute the weighted euclidean distance between two arrays of points:
D{i,j} =
sqrt( ((A{0,i}-B{0,j})/W{0,i})^2 + ... + ((A{k,i}-B{k,j})/W{k,i})^2 )
inputs:
A is an (k, m) array of coordinates
B is an (k, n) array of coordinates
W is an (k, m) array of weights
returns:
D is an (m, n) array of weighted euclidean distances
"""
# compute the differences and apply the weights in one go using
# broadcasting jujitsu. the result is (n, k, m)
wdiff = (A[np.newaxis,...] - B[np.newaxis,...].T) / W[np.newaxis,...]
# square and sum over the second axis, take the sqrt and transpose. the
# result is an (m, n) array of weighted euclidean distances
D = np.sqrt((wdiff*wdiff).sum(1)).T
return D
为了检查它是否正常工作,我们将它与使用嵌套 Python 循环的较慢版本进行比较:
def slow_wdist(A, B, W):
k,m = A.shape
_,n = B.shape
D = np.zeros((m, n))
for ii in xrange(m):
for jj in xrange(n):
wdiff = (A[:,ii] - B[:,jj]) / W[:,ii]
D[ii,jj] = np.sqrt((wdiff**2).sum())
return D
首先,让我们确保这两个函数给出相同的答案:
# make some random points and weights
def setup(k=2, m=100, n=300):
return np.random.randn(k,m), np.random.randn(k,n),np.random.randn(k,m)
a, b, w = setup()
d0 = slow_wdist(a, b, w)
d1 = fast_wdist(a, b, w)
print np.allclose(d0, d1)
# True
不用说,使用广播而不是 Python 循环的版本要快几个数量级:
%%timeit a, b, w = setup()
slow_wdist(a, b, w)
# 1 loops, best of 3: 647 ms per loop
%%timeit a, b, w = setup()
fast_wdist(a, b, w)
# 1000 loops, best of 3: 620 us per loop
关于python - 数组中点之间的快速加权欧氏距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19277244/
我有一个包含三个字段的表:ID、值、计数 ID和Value构成PK。 给定一个 ID,我想选择一个按计数加权的值,然后将计数减一。 如果我有 1 A 2 1 B 3 我应该有 2/5 的机会获
我有一个数据集,其中开始日期和日期没有特定的顺序。我想创建一组新的几个月列和数据的加权平均值。 del 代表否。日期范围内的天数 d 是该时间段的平均值 from datetime import da
我正在开发的一个软件应用程序需要能够根据用户当前拥有的任务数量将任务分配给一组用户,其中任务最少的用户最有可能获得下一个任务。然而,当前的任务负载应该被视为一个权重,而不是一个绝对的顺序定义。 IOW
我正在尝试用字典创建一个光学字符识别系统。 事实上,我还没有实现字典=) 我听说有一些基于 Levenstein 距离的简单指标,这些指标考虑了不同符号之间的不同距离。例如。 'N' 和 'H' 彼此
三个AI新手问题: 为什么 A* 可以采用启发式算法来找到最佳路径? 如果障碍物挡住了道路,系带制动技术有什么用? 什么算法适合在有障碍物的网格上找到路径? (像吃 bean 一样) 第一个问题让我们
我有一个 2396x34 double matrix命名 y其中每一行 (2396) 代表一个单独的情况,由 34 个连续的时间段组成。 我也有 numeric[34]命名 x这代表了 34 个连续时
我有一个如下所示的多维数组,我想做一些奇特的排序,但我不知道如何处理它。我想首先按第 5 个元素对数组元素进行排序,然后是第 4 个元素,然后是第 3 个元素,然后是第 2 个元素,然后是第 1 个元
我想对具有三个变量(列)的数据集(即 Sample_Data)进行 Kmeans 聚类,如下所示: A B C 1 12 10 1 2 8 11 2 3 14 10
我环顾四周,发现了一些与我类似的问题,但它们缺乏解释。 我正在尝试搜索包含多列的表格。我希望匹配列数最多的行位于顶部,匹配列数最少的行位于底部。我见过几种方法。我目前的糟糕方式是使用大量 MySQL
我必须大量使用加权概率分布,并且想使用 violinplots 进行一些可视化。但是,我找不到在任何常见嫌疑人(matplotlib、seaborn、bokeh 等)中使用加权数据创建这些数据的方法。
我会尽量做到彻底: 我有 11 个小组。 我有很多人需要在这些组之间进行划分 每个人都有一个加权偏好列表。通常在该列表上有 3 个有序的组,但一些异常值会有更多或更少的组。 IE:人 1 有进入 A
我有 100 个顶点和一个计算顶点 x 和顶点 y 之间边的权重的函数 f(x,y)。 f 不是特别昂贵,因此如果需要,我可以生成带权重的索引邻接列表。 有哪些有效、易处理的方法可以通过最小化或最大化
谁能给我指出一个关于如何构建(乘法和/或加法)加权 voronoi 图的引用实现,该图最好基于 Fortune 的 voronoi 算法? 我的目标:给定一组点(每个点都有一个权重)和一组边界边(通常
有没有一种方法可以使用标准库进行漂亮而优雅的加权洗牌?有 std::discrete_distribution。我想要的是这样的: std::vector data { N elements }; s
其实不是RANDBETWEEN()。我正在尝试创建一个 UDF 来返回数组中数字的索引,其中数字越大,被选择的可能性就越大。 我知道如何将概率分配给工作表中的随机数(即对概率之和使用 MATCH()
canvas 占据了整个屏幕,从绿色可以看出。canvasFrame 有两行,其中第二行是滚动文本小部件。第二行也被加权但是它没有填满屏幕,因为绿色区域应该是黄色的。如何让第二行填充空白并让滚动的文本
我正在研究 HITS 算法实现的加权版本。 这是 Hits 算法的公式(非加权版本): 其中HITS A为权威评分,HITS H为hub评分,维基百科算法伪代码: G := set of pages
我不确定如何实现这个,但这里是描述: 取一个 0-10 之间的数字作为输入(0 总是返回 false,10 总是返回 true) 将接收到的参数作为输入,并传递给一个函数,在运行时确定所需的 bool
所以我在 Pandas DataFrame 中有两个值列和两个权重列,我想生成第三列,它是这两列的分组依据、加权平均值。 因此: df = pd.DataFrame({'category':['a',
我正在尝试使用 ggridges 包(基于 ggplot2)创建一个 joyplot。一般的想法是 joyplot 创建很好缩放的堆叠密度图。但是,我似乎无法使用加权密度生成其中之一。在创建 joyp
我是一名优秀的程序员,十分优秀!