python - 加快阵列中所有可能对之间的距离-6ren

python - 加快阵列中所有可能对之间的距离

转载作者：太空狗更新时间：2023-10-29 21:00:34

25

4

我有几个 (~10^10) 个点的 x、y、z 坐标数组(这里只显示 5 个)

a= [[ 34.45  14.13   2.17]
    [ 32.38  24.43  23.12]
    [ 33.19   3.28  39.02]
    [ 36.34  27.17  31.61]
    [ 37.81  29.17  29.94]]

我想创建一个新数组，其中仅包含与列表中所有其他点至少有一定距离 d 的点。我使用 while 循环写了一段代码，

 import numpy as np
 from scipy.spatial import distance 

 d=0.1 #or some distance 
 i=0
 selected_points=[]
 while i < len(a):
          interdist=[]  
          j=i+1
          while j<len(a):
              interdist.append(distance.euclidean(a[i],a[j]))
              j+=1

          if all(dis >= d for dis in interdist):
              np.array(selected_points.append(a[i]))
          i+=1

这可行，但执行此计算需要很长时间。我在某处读到 while 循环非常慢。

我想知道是否有人对如何加快此计算有任何建议。

编辑:虽然我找到与所有其他粒子至少有一定距离的粒子的目标保持不变，但我只是意识到我的代码中存在严重缺陷，假设我有 3 个粒子，我的代码执行以下操作，对于 i 的第一次迭代，它计算距离 1->2、1->3，假设 1->2 小于阈值距离 d，因此代码会丢弃粒子 1。对于 i 的下一次迭代，它只执行 2->3，假设它发现它大于 d，所以它保留粒子 2，但这是错误的!因为 2 也应该与粒子 1 一起被丢弃。 @svohara 的解决方案是正确的!

最佳答案

对于大数据集和低维点(例如 3 维数据)，有时使用空间索引方法会有很大好处。低维数据的一种流行选择是 k-d 树。

策略是索引数据集。然后使用相同的数据集查询索引，返回每个点的 2 个最近邻。第一个最近的邻居总是点本身(dist=0)，所以我们真的想知道下一个最近的点有多远(第二个最近的邻居)。对于 2-NN > 阈值的那些点，您得到了结果。

from scipy.spatial import cKDTree as KDTree
import numpy as np

#a is the big data as numpy array N rows by 3 cols
a = np.random.randn(10**8, 3).astype('float32')

# This will create the index, prepare to wait...
# NOTE: took 7 minutes on my mac laptop with 10^8 rand 3-d numbers
#  there are some parameters that could be tweaked for faster indexing,
#  and there are implementations (not in scipy) that can construct
#  the kd-tree using parallel computing strategies (GPUs, e.g.)
k = KDTree(a)

#ask for the 2-nearest neighbors by querying the index with the
# same points
(dists, idxs) = k.query(a, 2)
# (dists, idxs) = k.query(a, 2, n_jobs=4)  # to use more CPUs on query...

#Note: 9 minutes for query on my laptop, 2 minutes with n_jobs=6
# So less than 10 minutes total for 10^8 points.

# If the second NN is > thresh distance, then there is no other point
# in the data set closer.
thresh_d = 0.1   #some threshold, equiv to 'd' in O.P.'s code
d_slice = dists[:, 1]  #distances to second NN for each point
res = np.flatnonzero( d_slice >= thresh_d )

关于python - 加快阵列中所有可能对之间的距离，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35659858/

25

4

0

文章推荐： c++ - 使用 Boost float 比较获取 bool 返回值

文章推荐： c# - 使方法/属性对一个类可见，对其他类隐藏

文章推荐： c++ - 如何在 Windows 窗体应用程序 vc++ 中导入 C 静态库

文章推荐： c# - 如何检索 Oracle 过程或函数的主体

ffmpeg - 加快/减慢视频ffmpeg
我想使用 ffmpeg 框架更改视频速度。我为此使用了这个命令: ffmpeg -y -i /storage/extSdCard/Video/1.avi -filter_complex [0:v]fp
python - 加快 while 循环匹配数组中的模式
我有以下数据数组，有 200 万个条目: [20965 1239 296 231 -1 -1 20976 1239 299 314 147 337 255
database - 加快 sqlFetch()
我正在使用 Oracle 数据库，并且想获取一个包含 3000 万条记录的表。 library(RODBC) ch <- odbcConnect("test", uid="test_user",
android - 加快 FFmpeg 处理时间
我在 android 上使用 FFmpeg 来: 1- 合并 3 个视频 2-添加音频 3-添加标志 4-修剪 3 个视频之一 5-改变输出的fps 我已经实现了正确的代码，但花了 30 分钟。对于(
julia - 加快 Julia 中的包加载速度
我使用 GLPKMathProgInterface 和 JuMP 编写了一个程序来解决 Julia 中的线性程序。 Julia 代码由 python 程序调用，该程序通过多个命令行调用运行多个 Jui
performance - 加快 POVRAY 图像创建的示例配置
我们使用 POV-Ray 每次运行生成大约 80 张图像，我们将这些图像拼接在一起形成两个移动的 GIF 文件(一个场景的两个 360 度 View )。我们正在寻找尽可能加快此镜像创建的方法(在 h
iphone - 加快 iPhone 开发速度的最快途径
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
sql - 加快 Python 执行速度
我将数据从一个数据库插入到另一个数据库，所以我有 2 个连接(Conn1 和 Conn2)。下面是代码(使用pypyodbc)。 import pypyodbc Conn1_Query = "SE
iphone - 加快 EKEvents 的获取速度
在我的应用程序中，我显示 EKEvents 列表，我想在 UITableView 中显示一个月的所有事件，每个部分包含各自的日期。嗯，这可行，我得到了我需要的所有数据，但获取速度非常慢。问题在于事件
javascript - 加快 WordPress 网站上的轮播速度
我有一个移动速度非常慢的传送带。我不知道什么JS脚本控制速度，我需要它来加速。无法从主题制作者那里获得任何帮助。任何建议都会非常有帮助。谢谢页面: http://krankgolf2017.wpen
vba - 加快 VBA 速度吗？
有没有办法加快这段代码的速度？我需要它来删除相同的内容并将其写入单元格，以强制其他 VBA 代码运行另一列上的代码。这就是它的作用，只是 super 慢。有时此表上有 2000 个条目/行。每个单元大
python - 加快 openpyxl 读取速度
我正在开发一个相当大的程序，它再次从一个相当大的 Excel 电子表格中获取数据。由于一些奇怪的原因，加载这个大的 Excel 文件需要很长时间，我希望能以某种方式加快速度。我做了自己的研究并尝试了
vba - 加快 VBA 中按钮格式化的速度
我有下面的代码，将所有按钮(有 10 个)着色为灰色，以清除任何先前着色的按钮，然后将所选按钮着色为蓝色。基本上充当当前选择哪个按钮的指示器。我注意到代码现在需要一些时间才能通过这种修饰添加来运行，我
.net - 加快 LINQ 查询速度的技巧？
我有一个 LINQ 查询，它正在搜索包含大约 250,000 条记录的 SQL 表，并且仅搜索 2 个字段。这两个字段都已建立索引，但我发现它的运行速度仍然相当慢。下面是代码，有人可以提出任何建议来
python - 加快 Pandas 应用功能
对于相对较大的 Pandas DataFrame(几十万行)，我想创建一个应用函数结果的系列。问题是该功能不是很快，我希望它能以某种方式加快速度。 df = pd.DataFrame({ 'valu
r - 加快 R 中的概率加权采样
这个问题在这里已经有了答案: Faster weighted sampling without replacement (3 个答案) 关闭 9 年前。如何在 R 中加快概率加权采样。 # Let
phantomjs - 加快 phantomjs 屏幕捕获时间？
在运行 PhantomJS 提供的 rasterize.js 示例时，我发现我必须等待 20 秒或更长时间才能生成网页图像。有没有可能在不消耗大量资源的情况下加快速度的方法？我基本上希望快速生成从加
python - 加快 openpyxl 读取速度
我正在开发一个相当大的程序，它再次从一个相当大的 Excel 电子表格中获取数据。由于一些奇怪的原因，加载这个大的 Excel 文件需要很长时间，我希望能以某种方式加快速度。我做了自己的研究并尝试了
vba - 加快 VBA 中按钮格式化的速度
我有下面的代码，将所有按钮(有 10 个)着色为灰色，以清除任何先前着色的按钮，然后将所选按钮着色为蓝色。基本上充当当前选择哪个按钮的指示器。我注意到代码现在需要一些时间才能通过这种修饰添加来运行，我
vba - 加快 VBA 代码运行速度
我有一个 Excel 工作簿，用户通过单击按钮导入文本文件。我的代码完全按照我的需要工作，但是在填写 H 列“阅读日期”时速度非常慢。将文本文件导入 Excel 工作表后，我的 Excel 工作簿如下

首页

博学

6Ren·AI

商城

python - 加快阵列中所有可能对之间的距离