r - 两个形状之间的欧几里德距离矩阵性能-6ren

r - 两个形状之间的欧几里德距离矩阵性能

转载作者：行者123 更新时间：2023-12-02 08:30:14

我遇到的问题是，我必须计算形状之间的欧几里德距离矩阵，范围从 20,000 到 60,000 个点，这会产生 10-20GB 的数据量。我必须运行每个计算数千次，因此 20GB x 7,000(每个计算都是不同的点云)。形状可以是 2D 或 3D。

已编辑(更新的问题)

有没有更有效的方法来计算前进和后退距离，而无需使用两个单独的嵌套循环？
我知道我可以保存数据矩阵并计算最小值每个方向的距离，但是存在巨大的内存问题具有大点云。
有没有办法加快计算速度和/或清理代码以缩短时间？

讽刺的是，我只需要矩阵来计算一个非常简单的度量，但它需要整个矩阵来找到该度量(平均豪斯多夫距离)。

数据示例，其中每列代表形状的一个维度，每行是形状中的一个点:

first_configuration <- matrix(1:6,2,3)
second_configuration <- matrix(6:11,2,3)
colnames(first_configuration) <- c("x","y","z")
colnames(second_configuration) <- c("x","y","z")

此代码计算坐标之间的欧几里德距离:

m <- nrow(first_configuration)
n <- nrow(second_configuration)

D <- sqrt(pmax(matrix(rep(apply(first_configuration * first_configuration, 1, sum), n), m, n, byrow = F) + matrix(rep(apply(second_configuration * second_configuration, 1, sum), m), m, n, byrow = T) - 2 * first_configuration %*% t(second_configuration), 0))
D

输出:

     [,1]      [,2]
[1,] 8.660254 10.392305
[2,] 6.928203  8.660254

编辑:包括hausdorff平均代码

d1 <- mean(apply(D, 1, min))
d2 <- mean(apply(D, 2, min))
average_hausdorff <- mean(d1, d2)

编辑(Rcpp 解决方案):这是我在 Rcpp 中实现它的尝试，因此矩阵永远不会保存到内存中。现在正在工作，但速度很慢。

sourceCpp(code=
#include <Rcpp.h>
#include <limits>
using namespace Rcpp;

// [[Rcpp::export]]
double edist_rcpp(NumericVector x, NumericVector y){
    double d = sqrt( sum( pow(x - y, 2) ) );
    return d;
}


// [[Rcpp::export]]
double avg_hausdorff_rcpp(NumericMatrix x, NumericMatrix y){
    int nrowx = x.nrow();
    int nrowy = y.nrow();
    double new_low_x = std::numeric_limits<int>::max();
    double new_low_y = std::numeric_limits<int>::max();

    double mean_forward = 0;
    double mean_backward = 0;
    double mean_hd; 
    double td; 

    //forward
    for(int i = 0; i < nrowx; i++) {
        for(int j = 0; j < nrowy; j++) {
            NumericVector v1 = x.row(i);
            NumericVector v2 = y.row(j);
            td = edist_rcpp(v1, v2);
            if(td < new_low_x) {
                new_low_x = td;
            }
        }
        mean_forward = mean_forward + new_low_x;
        new_low_x = std::numeric_limits<int>::max();
    }

    //backward
    for(int i = 0; i < nrowy; i++) {
        for(int j = 0; j < nrowx; j++) {
            NumericVector v1 = y.row(i);
            NumericVector v2 = x.row(j);
            td = edist_rcpp(v1, v2);
            if(td < new_low_y) {
                new_low_y = td;
            }
        }
        mean_backward = mean_backward + new_low_y;
        new_low_y = std::numeric_limits<int>::max();
    }

    //hausdorff mean
    mean_hd = (mean_forward / nrowx + mean_backward / nrowy) / 2;

    return mean_hd;
}
)

编辑(RcppParallel 解决方案):绝对比串行 Rcpp 解决方案更快，而且肯定比 R 解决方案更快。如果有人有关于如何改进我的 RcppParallel 代码以减少一些额外时间的提示，我们将不胜感激!

sourceCpp(code=
#include <Rcpp.h>
#include <RcppParallel.h>
#include <limits>

// [[Rcpp::depends(RcppParallel)]]
struct minimum_euclidean_distances : public RcppParallel::Worker {
    //Input
    const RcppParallel::RMatrix<double> a;
    const RcppParallel::RMatrix<double> b;

    //Output
    RcppParallel::RVector<double> medm;

    minimum_euclidean_distances(const Rcpp::NumericMatrix a, const Rcpp::NumericMatrix b, Rcpp::NumericVector medm) : a(a), b(b), medm(medm) {}

    void operator() (std::size_t begin, std::size_t end) {
        for(std::size_t i = begin; i < end; i++) {
            double new_low = std::numeric_limits<double>::max();
            for(std::size_t j = 0; j < b.nrow(); j++) {
                double dsum = 0;
                for(std::size_t z = 0; z < b.ncol(); z++) {
                    dsum = dsum + pow(a(i,z) - b(j,z), 2);
                }
                dsum = pow(dsum, 0.5);
                if(dsum < new_low) {
                    new_low = dsum;
                }
            }
            medm[i] = new_low;
        }
    }
};


// [[Rcpp::export]]
double mean_directional_hausdorff_rcpp(Rcpp::NumericMatrix a, Rcpp::NumericMatrix b){
    Rcpp::NumericVector medm(a.nrow());
    minimum_euclidean_distances minimum_euclidean_distances(a, b, medm);
    RcppParallel::parallelFor(0, a.nrow(), minimum_euclidean_distances);    
    double results = Rcpp::sum(medm);
    results = results / a.nrow();
    return results;
}


// [[Rcpp::export]]
double max_directional_hausdorff_rcpp(Rcpp::NumericMatrix a, Rcpp::NumericMatrix b){
    Rcpp::NumericVector medm(a.nrow());
    minimum_euclidean_distances minimum_euclidean_distances(a, b, medm);
    RcppParallel::parallelFor(0, a.nrow(), minimum_euclidean_distances);    
    double results = Rcpp::max(medm);
    return results;
}
)

使用大小为 37,775 和 36,659 的大型点云的基准:

//Rcpp serial solution
system.time(avg_hausdorff_rcpp(ll,rr))
   user  system elapsed 
409.143   0.000 409.105 

//RcppParallel solution
system.time(mean(mean_directional_hausdorff_rcpp(ll,rr), mean_directional_hausdorff_rcpp(rr,ll)))
   user  system elapsed 
260.712   0.000  33.265

最佳答案

我尝试使用JuliaCall计算平均豪斯多夫距离。JuliaCall 嵌入 Julia在 R 中。

我只在 JuliaCall 中尝试串行解决方案。它似乎比问题中的 RcppParallel 和 Rcpp 串行解决方案更快，但我没有基准数据。由于并行计算的能力是在 Julia 中构建的。 Julia 中的并行计算版本的编写应该没有太大困难。发现后我会更新我的答案。

下面是我编写的 julia 文件:

# Calculate the min distance from the k-th point in as to the points in bs
function min_dist(k, as, bs)
    n = size(bs, 1)
    p = size(bs, 2)
    dist = Inf
    for i in 1:n
        r = 0.0
        for j in 1:p
            r += (as[k, j] - bs[i, j]) ^ 2
            ## if r is already greater than the upper bound, 
            ## then there is no need to continue doing the calculation
            if r > dist
                continue
            end
        end
        if r < dist
            dist = r
        end
    end
    sqrt(dist)
end

function avg_min_dist_from(as, bs)
    distsum = 0.0
    n1 = size(as, 1)
    for k in 1:n1
        distsum += min_dist_from(k, as, bs)
    end
    distsum / n1
end

function hausdorff_avg_dist(as, bs)
    (avg_min_dist_from(as, bs) + avg_min_dist_from(bs, as)) / 2
end

这是使用 julia 函数的 R 代码:

first_configuration <- matrix(1:6,2,3)
second_configuration <- matrix(6:11,2,3)
colnames(first_configuration) <- c("x","y","z")
colnames(second_configuration) <- c("x","y","z")

m <- nrow(first_configuration)
n <- nrow(second_configuration)

D <- sqrt(matrix(rep(apply(first_configuration * first_configuration, 1, sum), n), m, n, byrow = F) + matrix(rep(apply(second_configuration * second_configuration, 1, sum), m), m, n, byrow = T) - 2 * first_configuration %*% t(second_configuration))
D

d1 <- mean(apply(D, 1, min))
d2 <- mean(apply(D, 2, min))
average_hausdorff <- mean(d1, d2)

library(JuliaCall)
## the first time of julia_setup could be quite time consuming
julia_setup()
## source the julia file which has our hausdorff_avg_dist function
julia_source("hausdorff.jl")

## check if the julia function is correct with the example
average_hausdorff_julia <- julia_call("hausdauff_avg_dist",
                                      first_configuration,
                                      second_configuration)
## generate some large random point clouds
n1 <- 37775
n2 <- 36659
as <- matrix(rnorm(n1 * 3), n1, 3)
bs <- matrix(rnorm(n2 * 3), n2, 3)

system.time(julia_call("hausdauff_avg_dist", as, bs))

我的笔记本电脑上的时间不到 20 秒，注意这是 JuliaCall 串行版本的性能!我使用相同的数据来测试问题中的RCpp串行解决方案，运行了10多分钟。我的笔记本电脑上现在没有 RCpp 并行，所以我无法尝试。正如我所说，Julia 具有内置的并行计算能力。

关于r - 两个形状之间的欧几里德距离矩阵性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47212509/

文章推荐： c++ - 了解一个对象是否是整型或者是否是类类型有什么意义呢？

文章推荐： java - '<=' 无效字符常量

文章推荐： java - 即使文件扩展名已更改，如何识别文件类型？

r - 矩阵 %in% 矩阵
假设我有两个矩阵，每个矩阵有两列和不同的行数。我想检查并查看一个矩阵的哪些对在另一个矩阵中。如果这些是一维的，我通常只会做 a %in% x得到我的结果。 match似乎只适用于向量。 > a
algorithm - 矩阵-矩阵乘法/矩阵-向量乘法有哪些不同类型的算法
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 个月前。 Improv
math - OpenGL 矩阵 VS DirectX 矩阵
我只处理过 DirectX 矩阵我读过一些文章，说不能将 DirectX 矩阵数学库用于 openGL 矩阵。但我也读过，如果你的数学是一致的，你可以获得类似的结果。那只会让我更加困惑。任何人都
c++ - 使用BLAS和OpenMP优化本征重组(矩阵-对角矩阵-矩阵)产品C++
我编写了一个C++代码来解决线性系统A.x = b，其中A是一个对称矩阵，方法是首先使用LAPACK(E)对角矩阵A = V.D.V^T(因为以后需要特征值)，然后求解x = A^-1.b = V^T
c++ - 动态创建一个 3x2 矩阵；打印它显示一个 2x2 矩阵
我遇到了问题。我想创建二维数组 rows=3 cols=2我的代码如下 int **ptr; int row=3; int col=2; ptr=new int *[col]; for (int i=
matlab - 从 3d 矩阵 Matlab 中获取 2d 矩阵
我有一个 3d mxnxt 矩阵，我希望能够提取 t 2d nxm 矩阵。在我的例子中，我有一个 1024x1024x10 矩阵，我想要 10 张图像显示给我。这不是 reshape ，我每次只需要
matlab - 将 3d 矩阵 reshape 为 2d 矩阵
我在 MATLAB 中有一个 3d 矩阵 (n-by-m-by-t) 表示一段时间内网格中的 n-by-m 测量值.我想要一个二维矩阵，其中空间信息消失了，只剩下 n*m 随着时间 t 的测量值(即:
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
python - 将 3D numpy 矩阵 reshape 为 2D numpy 矩阵，保持行位置
作为一个简化的示例，我有一个 3D numpy 矩阵，如下所示: a = np.array([[[1,2], [4,np.nan], [7,
c++ - 给定两个动态 R x C 矩阵，我如何交错行以生成一个 2R x C 矩阵？
使用 eigen2 , 并给定一个矩阵 A a_0_0, a_0_1, a_0_2, ... a_1_0, a_1_0, a_1_2, ... ... 和一个矩阵B: b_0_0, b_0_1, b_
html - 中型和大型设备上为 2 x 2 矩阵，小型设备上为 4 x 1 矩阵
我想知道如何获得下面的布局。在中型和大型设备上，我希望有 2 行和 2 列的布局(2 x 2 矩阵)。在小型(和超小型)设备上或调整为小型设备时，我想要一个 4 行和 1 列的矩阵。我将通过 a
matlab - 将(4D 矩阵 * 1D 向量)操作转换为独立的(3D 矩阵 * 0D 标量)操作，无需循环
有什么方法可以向量化以下内容: for i = 1:6 te = k(:,:,:,i).*(c(i)); end 我正在尝试将 4D 矩阵 k 乘以向量 c，方法是将其
随机抽样 - 矩阵
如何从填充有 1 和 0 的矩阵中抽取 n 个随机点的样本？ a=rep(0:1,5) b=rep(0,10) c=rep(1,10) dataset=matrix(cbind(a,b,c),nrow
JavaScript 矩阵
我正在尝试创建一个包含 X 个 X 的矩阵。以下代码生成从左上角到右下角的 X 对 Angular 线，而不是从右上角到左下角的 X 对 Angular 线。我不确定从哪里开始。是否应该使用新变量创建
Python 矩阵
我想在 python 中创建一个每行三列的矩阵，并能够通过任何一行对它们进行索引。矩阵中的每个值都是唯一的。据我所知，我可以设置如下矩阵: matrix = [["username", "name"
java如何创建不同对象的数组/矩阵
我有点迷茫我创建了一个名为 person 的类，它具有 age 和 name 属性(以及 get set 方法)。然后在另一个类中，我想创建一个 persons 数组，其中每个人都有不同的年龄和姓名
Java多维散列/矩阵
我有 n 个类，它们要么堆叠，要么不堆叠。所有这些类都扩展了同一个类 (CellObject)。我知道更多类将添加到此列表中，我想创建一种易于在一个地方操纵“可堆叠性”的方法。我正在考虑创建一个矩阵
Python模糊字符串匹配作为相关样式表/矩阵
我有一个包含 x 个字符串名称及其关联 ID 的文件。本质上是两列数据。我想要的是一个格式为 x x x 的相关样式表(将相关数据同时作为 x 轴和 y 轴)，但我想要 fuzzywuzzy 库的函
机器学习的数学基础--向量，矩阵
机器学习与传统编程的一个重要区别在于机器学习比传统编程涉及了更多的数学知识。不过，随着机器学习的飞速发展，各种框架应运而生，在数据分析等应用中使用机器学习时，使用现成的库和框架成为常态，似乎越来越不需
Julia 问题与结束，矩阵
当我在 julia 中输入这个错误跳转但我不知道为什么，它应该工作。/ julia> A = [1 2 3 4; 5 6 7 8; 1 2 3 4; 5 6 7 8] 4×4 Array{Int64,

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 两个形状之间的欧几里德距离矩阵性能