python - 找到比给定的最大距离更近的所有点对-6ren

python - 找到比给定的最大距离更近的所有点对

转载作者：行者123 更新时间：2023-11-28 19:56:08

我想(高效地)找到比某个距离 max_d 更近的所有点对。我当前使用 cdist 的方法是:

import numpy as np
from scipy.spatial.distance import cdist

def close_pairs(X,max_d):
    d = cdist(X,X)

    I,J = (d<max_d).nonzero()
    IJ  = np.sort(np.vstack((I,J)), axis=0)

    # remove diagonal element
    IJ  = IJ[:,np.diff(IJ,axis=0).ravel()<>0]

    # remove duplicate
    dt = np.dtype([('i',int),('j',int)])
    pairs = np.unique(IJ.T.view(dtype=dt)).view(int).reshape(-1,2)

    return pairs

def test():
    X = np.random.rand(100,2)*20
    p = close_pairs(X,2)

    from matplotlib import pyplot as plt
    plt.clf()
    plt.plot(X[:,0],X[:,1],'.r')
    plt.plot(X[p,0].T,X[p,1].T,'-b')

但我认为这是矫枉过正(而且可读性不强)，因为大部分工作只是为了消除 self 距离和重复项。

我的主要问题是:有更好的方法吗？

(注意:此时输出的类型(array, set, ...)并不重要)

我目前的想法是使用 pdist，它返回一个仅包含正确对的压缩距离数组。但是，一旦我从压缩距离数组中找到合适的坐标 k，我该如何计算它等效于哪些 i,j 对？

所以另一个问题是:是否有一种简单的方法来获取相对于 pdist 输出条目的坐标对列表:

一个函数f(k)->i,j
使得 cdist(X,X)[i,j] = pdist(X)[k]

最佳答案

根据我的经验，有两种最快的方法可以在 3D 中查找邻居列表。一种是使用用 C++ 或 Cython(在我的例子中，两者)编写的最简单的双循环代码。它以 N^2 的速度运行，但对于小型系统来说速度非常快。另一种方法是使用线性时间算法。 Scipy ckdtree 是一个不错的选择，但有局限性。来自分子动力学软件的邻居列表查找器功能最强大，但很难包装，而且初始化时间可能很慢。

下面我比较四种方法:

朴素的 cython 代码
包装OpenMM (很难安装，见下文)
Scipy.spatial.ckdtree
scipy.spatial.distance.pdist

测试设置:n 点散布在体积密度为 0.2 的矩形框中。系统大小从 10 到 1000000(一百万)个粒子不等。接触半径取自 0.5, 1, 2, 4, 7, 10。请注意，因为密度为 0.2，所以在接触半径为 0.5 时，我们平均每个粒子有大约 0.1 个接触，在 1 = 0.8、2 = 6.4 和 10 - 大约 800!对于小型系统重复多次接触查找，对于大于 30k 粒子的系统重复一次。如果每次调用的时间超过 5 秒，则运行中止。

设置:双至强 2687Wv3、128GB RAM、Ubuntu 14.04、python 2.7.11、scipy 0.16.0、numpy 1.10.1。所有代码都没有使用并行优化(OpenMM 除外，尽管并行部分执行得如此之快以至于在 CPU 图形上什至不明显，但大部分时间都花在了管道数据与 OpenMM 之间)。

结果:请注意，下面的图是对数尺度的，分布在 6 个数量级上。即使很小的视觉差异实际上也可能是 10 倍。对于少于 1000 个粒子的系统，Cython 代码总是更快。但是，1000 个粒子后的结果取决于接触半径。 pdist 的实现总是比 cython 慢，并且占用更多的内存，因为它显式地创建了一个距离矩阵，由于 sqrt 的存在，它很慢。

在小接触半径(<1 个接触每个粒子)，ckdtree 是所有系统大小的不错选择。
在中等接触半径下，(每个粒子 5-50 个接触)朴素的 cython 实现是最好的，最多 10000 个粒子，然后 OpenMM 开始以大约几个数量级获胜，但 ckdtree 表现仅差 3-10 倍
在高接触半径(每个粒子 > 200 个接触)下，朴素的方法可以处理多达 100k 或 1M 的粒子，然后 OpenMM 可能会获胜。

安装 OpenMM 非常棘手；您可以在 http://bitbucket.org/mirnylab/openmm-polymer 中阅读更多内容文件“contactmaps.py”或在自述文件中。然而，下面的结果表明，对于 N>100k 的粒子，每个粒子只有 5-50 个接触是有利的。

下面的 Cython 代码:

import numpy as np
cimport numpy as np
cimport cython

cdef extern from "<vector>" namespace "std":
    cdef cppclass vector[T]:
        cppclass iterator:
            T operator*()
            iterator operator++()
            bint operator==(iterator)
            bint operator!=(iterator)
        vector()
        void push_back(T&)
        T& operator[](int)
        T& at(int)
        iterator begin()
        iterator end()

np.import_array() # initialize C API to call PyArray_SimpleNewFromData
cdef public api tonumpyarray(int* data, long long size) with gil:
    if not (data and size >= 0): raise ValueError
    cdef np.npy_intp dims = size
    #NOTE: it doesn't take ownership of `data`. You must free `data` yourself
    return np.PyArray_SimpleNewFromData(1, &dims, np.NPY_INT, <void*>data)

@cython.boundscheck(False)
@cython.wraparound(False)
def contactsCython(inArray, cutoff):
    inArray = np.asarray(inArray, dtype = np.float64, order = "C")
    cdef int N = len(inArray)
    cdef np.ndarray[np.double_t, ndim = 2] data = inArray
    cdef int j,i
    cdef double curdist
    cdef double cutoff2 = cutoff * cutoff  # IMPORTANT to avoid slow sqrt calculation
    cdef vector[int] contacts1
    cdef vector[int] contacts2
    for i in range(N):
        for j in range(i+1, N):
            curdist = (data[i,0] - data[j,0]) **2 +(data[i,1] - data[j,1]) **2 + (data[i,2] - data[j,2]) **2
            if curdist < cutoff2:
                contacts1.push_back(i)
                contacts2.push_back(j)
    cdef int M = len(contacts1)

    cdef np.ndarray[np.int32_t, ndim = 2] contacts = np.zeros((M,2), dtype = np.int32)
    for i in range(M):
        contacts[i,0] = contacts1[i]
        contacts[i,1] = contacts2[i]
    return contacts

Cython 代码的编译(或生成文件):

    cython --cplus fastContacts.pyx
    g++  -g -march=native -Ofast -fpic -c   fastContacts.cpp -o fastContacts.o `python-config --includes`
    g++  -g -march=native -Ofast -shared  -o fastContacts.so  fastContacts.o `python-config --libs`

测试代码:

from __future__ import print_function, division

import signal
import time
from contextlib import contextmanager

import matplotlib
import matplotlib.pyplot as plt
import numpy as np
from scipy.spatial import ckdtree
from scipy.spatial.distance import pdist

from contactmaps import giveContactsOpenMM  # remove this unless you have OpenMM and openmm-polymer libraries installed
from fastContacts import contactsCython


class TimeoutException(Exception): pass


@contextmanager
def time_limit(seconds):
    def signal_handler(signum, frame):
        raise TimeoutException("Timed out!")

    signal.signal(signal.SIGALRM, signal_handler)
    signal.alarm(seconds)
    try:
        yield
    finally:
        signal.alarm(0)


matplotlib.rcParams.update({'font.size': 8})


def close_pairs_ckdtree(X, max_d):
    tree = ckdtree.cKDTree(X)
    pairs = tree.query_pairs(max_d)
    return np.array(list(pairs))


def condensed_to_pair_indices(n, k):
    x = n - (4. * n ** 2 - 4 * n - 8 * k + 1) ** .5 / 2 - .5
    i = x.astype(int)
    j = k + i * (i + 3 - 2 * n) / 2 + 1
    return np.array([i, j]).T


def close_pairs_pdist(X, max_d):
    d = pdist(X)
    k = (d < max_d).nonzero()[0]
    return condensed_to_pair_indices(X.shape[0], k)


a = np.random.random((100, 3)) * 3  # test set
methods = {"cython": contactsCython, "ckdtree": close_pairs_ckdtree, "OpenMM": giveContactsOpenMM,
           "pdist": close_pairs_pdist}

# checking that each method gives the same value
allUniqueInds = []
for ind, method in methods.items():
    contacts = method(a, 1)
    uniqueInds = contacts[:, 0] + 100 * contacts[:, 1]  # unique index of each contacts
    allUniqueInds.append(np.sort(uniqueInds))  # adding sorted unique conatcts
for j in allUniqueInds:
    assert np.allclose(j, allUniqueInds[0])

# now actually doing testing
repeats = [30,30,30, 30, 30, 20,  20,   10,   5,   3,     2 ,       1,     1,      1]
sizes =    [10,30,100, 200, 300,  500, 1000, 2000, 3000, 10000, 30000, 100000, 300000, 1000000]
systems = [[np.random.random((n, 3)) * ((n / 0.2) ** 0.333333) for k in range(repeat)] for n, repeat in
           zip(sizes, repeats)]

for j, radius in enumerate([0.5, 1, 2, 4, 7, 10]):
    plt.subplot(2, 3, j + 1)
    plt.title("Radius = {0}; {1:.2f} cont per particle".format(radius, 0.2 * (4 / 3 * np.pi * radius ** 3)))

    times = {i: [] for i in methods}

    for name, method in methods.items():
        for n, system, repeat in zip(sizes, systems, repeats):
            if name == "pdist" and n > 30000:
                break  # memory issues
            st = time.time()
            try:
                with time_limit(5 * repeat):
                    for ind in range(repeat):
                        k = len(method(system[ind], radius))
            except:
                print("Run aborted")
                break
            end = time.time()
            mytime = (end - st) / repeat
            times[name].append((n, mytime))
            print("{0} radius={1} n={2} time={3} repeat={4} contPerParticle={5}".format(name, radius, n, mytime,repeat, 2 * k / n))

    for name in sorted(times.keys()):
        plt.plot(*zip(*times[name]), label=name)
    plt.xscale("log")
    plt.yscale("log")
    plt.xlabel("System size")
    plt.ylabel("Time (seconds)")
    plt.legend(loc=0)

plt.show()

关于python - 找到比给定的最大距离更近的所有点对，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21285058/

文章推荐： python - "4 and 5"是5，而"4 or 5"是4，有什么原因吗？

文章推荐： python - 从 QTableView 的每个单元格中获取数据

文章推荐： ios - 检查 CGPathRef 中 CGPoints 数量的最有效方法

文章推荐： unit-testing - 使用枚举的 CakePHP 测试的解决方法？

perl - 给定/当值未定义时
在下面的代码中，我得到一个 uninitialized value警告，但仅限于第二个 given/when例子。为什么是这样？ #!/usr/bin/env perl use warnings; u
perl - 给定/何时的哪些部分是实验性的？
整个“开关”功能是否已成为实验性的？在没有 Perl 的 future 版本破坏我的代码的情况下，我可以依赖其中的某些部分吗？一般来说，将稳定功能更改为实验性的政策是什么？背景use feature
c++ - 条件语句(给定)
有没有办法在一个条件语句中写出如下语句？ a和b不能同时等于5。 (a可以是5，b可以是5，但是a AND b不能是5) 最佳答案正如克里斯指出的那样，您要查找的是逻辑异或，相当于逻辑不等于 !=:
给定 n 条线查找所有线段交点的算法
我正在寻找一种算法来找到给定 n 条线段的所有交点。以下是来自 http://jeffe.cs.illinois.edu/teaching/373/notes/x06-sweepline.pdf 的伪
python - 给定 k 个标记的最大项目
数组中有 N 个元素。我可以选择第一项最多 N 次，第二项最多选择 N-1 次，依此类推。我有 K 个 token 要使用并且需要使用它们以便我可以拥有最大数量的项目。 arr = [3, 4, 8
python - 给定 Spacy 中的引理是否有可能获得单词列表？
我正在尝试修复法语文本中的语法性别，想知道是否有办法从某个词条中获取所有单词的列表，以及是否可以在此类列表中进行查找？最佳答案尝试: import spacy lemma_lookup = spa
winapi - 给定 HWND，如何从所有者绘制的窗口中提取文本信息？
我正在为 Win32 编写一个简单的自动化测试应用程序。它作为一个单独的进程运行，并通过 Windows API 访问目标应用程序。我可以阅读窗口层次结构，查找标签和文本框，并通过发送/发布消息等来单
javascript - 给定 JSON 中的第一行是什么？
在 nodeJs 中使用 Sequelize 时，我从 Sequelize 收到此错误，如下所示: { [SequelizeUniqueConstraintError: Validation erro
python - 给定 CNN 的回归激活映射
本文https://arxiv.org/pdf/1703.10757.pdf使用回归激活映射 (RAM) - 而不是类激活映射 (CAM) 来解决问题。有几篇文章描述了如何实现 CAM。但是我找不到
ios - 给定 mach_header 我如何找到二进制图像名称？
我正在研究 Mach 动态链接器 dyld。这个问题适用于所有 Apple 平台，但很高兴得到特定于平台的答案；我正在使用 ObjC，但如果对你有用的话，我也很乐意翻译 Swift。 The rele
instagram - 给定 user_id，如何找到用户名？
我有一个包含数千个 Instagram 用户 ID 的列表。我如何获得他们的 Instagram 用户名/句柄？最佳答案你必须使用这个 Instagram API: https://api.ins
scala - 给定 Elasticsearch 无效模式
我在下面的代码: def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Spark-Hbase").s
excel - 给定 2 个日期时查找单元格范围
我有一个表格，其中包含从 1 到 10 的数字。(从 D2 到 M2) 假设A1中有03/09/2019 并且在B1中有06/09/2019 并且在C1中有Hello 在A 列中，我有多个系列的单词，
java - 给定 URI 的注释检索
我想在给定服务对应的 URI 的情况下检索服务的注释(特别是 @RolesAllowed )。这是一个例子: 服务: @GET @Path("/example") @RolesAllowed({ "B
oracle - 给定 JDBC 连接上的并发查询？
我看到 OraclePreparedStatementexecuteQuery() 表现出序列化。也就是说，我想使用相同的连接对 Oracle 数据库同时运行两个查询。然而，OraclePrepare
java - 给定 k，使用递归求几何和
import java.util.Scanner; public class GeometricSumFromK { public static int geometricSum(int k,
java - 给定 HttpServletRequest 的网页服务的良好模式是什么？
我创建了一个抽象基类Page，它说明了如何构建动态网页。我正在尝试想出一种基于作为 HttpServletRequest 传入的 GET 请求生成 Page 的好方法。例如... public cla
java - 给定 SMS 字符串的正则表达式是什么
我的字符串是一条短信，采用以下两种格式之一: 潜在客户短信: 您已收到 1 条线索标题:我的领导潜在客户 ID:12345-2365 警报设置 ID:890 短信回复: 您已收到 1 条回复标题
python - 给定 python 中的字符串列表
我在 python 中有以下代码: class CreateMap: def changeme(listOne, lisrTwo, listThree, listFour, listfive):
java - 给定 id 的多个实体的高效缓存感知获取
这是在 Hibernate 上运行的 JPA2。我想检索相同实体类型的多个实例，给定它们的 ID。其中许多已经在持久性上下文和/或二级缓存中。我尝试了几种方法，但似乎都有其缺点: 当我使用 ent

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 找到比给定的最大距离更近的所有点对