java - BLAS.dgemm方法多线程计算误差-6ren

java - BLAS.dgemm方法多线程计算误差

转载作者：太空宇宙更新时间：2023-11-04 10:53:41

29

4

当我使用spark mllib多层感知器模型来预测 vector 时，我发现同一 vector 在多线程中有时会给出不同的结果。我阅读了源代码，发现它是基于BLAS lib的。我为BLAS在多线程中编写了一些测试代码。

我使用 BLAS dgemm utils 来计算矩阵，使用多线程时相同的矩阵数据会给出不同的结果。

我的测试代码可以在github上找到。在测试代码中，我人工做了一些测试数据。要使用 Windows 10 进行测试，请在 java 类路径中添加 blas dll 文件。

当我只使用一个线程来运行时:

blas.dgemm(transa, transb, m, n, k,alpha, a, _a_offset, lda, b, _b_offset, ldb,beta, c, _c_offset, ldc)

重复运行结果是一样的。但使用5个或更多线程来运行相同的数据，blas.dgemm 给出了不同的结果。这很令人困惑，为什么 blas.dgemm 中的相同数据会给出不同的结果？

使用 Windows 10，将 netlib-native_system-win-x86_64.dll 添加到 java 类路径。

最佳答案

可能存在并发问题。数组 c(堆中的同一对象)正在被所有线程同步更改。如果 a 和 b 数组在 dgemm 函数内只读。则无需克隆它们

 @Override
 public void run() {
       double[] aa=a.clone();
       double[] bb=b.clone();
       double[] cc=c.clone();
     try {

        BLAS  blas =  BLAS.getInstance();
        blas.dgemm(transa, transb, m, n, k,
                alpha, aa, _a_offset, lda, bb, _b_offset, ldb,
                beta, cc, _c_offset, ldc);

        System.out.println("c.rows:"+ m + "   c.cols:"+n
                + "   c.data:"+ Arrays.toString(cc)
                + "   c._c_offset:"+_c_offset
                + "   c.ldc:"+ldc);

    } catch (Exception e) {
        e.printStackTrace();
    }


}

关于java - BLAS.dgemm方法多线程计算误差，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47526201/

29

4

0

文章推荐： css - 快速媒体查询故障

文章推荐： Python:为什么我会收到 ValueError:要解压的值太多

blas - 使用 100M 行转置 CSR 时出现 MKL 稀疏 BLAS 段错误
我正在尝试将 MKL 稀疏 BLAS 用于 CSR 矩阵，行数/列数约为 100M。当我将其增加到 100M 时，我的源代码似乎适用于 10M 行/列，但由于段错误而失败。我将问题隔离到以下代码片段
scala - 为什么 spark blas 在 1 级例程中使用 f2jBLAS 而不是原生 BLAS？
我在 BLAS.scala 中找到了以下代码: // For level-1 routines, we use Java implementation. private def f2jBLAS: Ne
c++ - Mac OS 中的 BLAS/LAPACK 和原来的 BLAS/LAPACK 有什么区别(如果有的话)？
我最近从 Linux 切换到 Mac OS。我需要 BLAS 和 LAPACK 来做一些计算。通过查看 BLAS 的维基百科，我了解到这两个库已经在 Mac OS 中实现。不过，据说 Apple's
c++ - Armadillo C++ 和 BLAS 和 ATLAS 在 mingw32 下找不到 lapack blas
全部，总结... 我正在尝试编译 example.cpp arma.sourceforge.net/docs.html#example_prog 我尝试用 lapack 和 blas 编译和链接 A
r - 在没有 root 访问权限的情况下，当 R 与引用 BLAS 链接时，使用调整后的 BLAS 运行
谁能告诉我为什么我可以不成功测试 OpenBLAS dgemm通过以下方式在 R 中性能(在 GFLOP 中)？将 R 与“引用 BLAS”链接起来 libblas.so 编译我的 C 程序 mmp
blas - BLAS例程中的incx
有某些BLAS例程将向量X的增量即incX作为参数。我找不到增量，以及增量如何影响计算结果。任何人都可以提供示例或任何其他类型的信息吗？更新: 我在这里找到了最好的信息: Intel HPC m
blas - 为什么加减法没有BLAS例程
在 BLAS 中有这样的例程 dscal scale a vector by a constant dinit initialize a vector with given value
blas - blas中incx和incxy是什么意思？
对于 BLAS 函数 sdot (n, x, incx, y, incy)。 incx 指定 x 元素的增量。参数incx和incy是什么意思？最佳答案 sdot (n, x, incx, y,
matrix - BLAS 矩阵乘矩阵转置乘法
我必须以 A'A 的形式计算一些产品或更一般的 A'DA ，其中 A是将军mxn矩阵和 D是对角线 mxm矩阵。他们都是满级；即 rank(A)=min(m,n) . 我知道你可以节省大量时间是这样的
benchmarking - BLAS 库基准
是否有比较不同 BLAS(基本线性代数子程序)库的基准？我对单核和多核系统的稀疏矩阵乘法特别感兴趣？最佳答案 BLAS 性能在很大程度上取决于系统，因此您最好在要使用的机器上自己进行基准测试。由于只
optimization - 优化的汇编代码 (BLAS)
因此，关于通过汇编代码提高性能的问题的答案通常是“别打扰，编译器比你更聪明”。我明白了。但是，我注意到优化的线性代数库(例如 ACML)可以实现比标准编译库高 2 到 5 倍的性能改进。例如，在我的
java - BLAS.dgemm方法多线程计算误差
当我使用spark mllib多层感知器模型来预测 vector 时，我发现同一 vector 在多线程中有时会给出不同的结果。我阅读了源代码，发现它是基于BLAS lib的。我为BLAS在多线程中编
c - 缺少头文件时链接到 BLAS
我正在尝试用 C 语言编译一个程序，该程序使用线性代数的 BLAS 接口(interface)。该系统在 /usr/lib64/libblas.* 中具有 BLAS 库(.a 和 .so 文件)但没有
c++ - Blas 看起来很慢
我在我的机器上比较矩阵乘法，似乎 c++ blas 非常慢。一个1000x1000的矩阵相乘大约需要4秒，而在python中同样需要1.5秒左右。我认为链接可能有问题，但我真的不知道如何解决这些问题。
c++ - BLAS 中矩阵之间的元素明智乘法？
我开始使用 C++(特别是英特尔 MKL)中的 BLAS 函数来创建我的一些旧 Matlab 代码的更快版本。到目前为止它运行良好，但我无法弄清楚如何对 2 个矩阵(Matlab 中的 A.* B)
c++ - BLAS 是如何获得如此极致的性能的？
出于好奇，我决定对我自己的矩阵乘法函数与 BLAS 实现进行基准测试......我对结果最不感到惊讶: Custom Implementation, 10 trials of 1000x1000 ma
fortran - 在 BLAS 中转置还是先自己做？
我在 Fortran 77 中整理了一些科学代码，我正在争论什么会更快。基本上，我有一个 MxN 矩阵，我们称之为 A。M 大于 N。稍后在代码中，我需要将 transpose(A) 乘以一堆向量。
language-agnostic - BLAS 如何结合矩阵链乘法优化
BLAS(基本线性代数子程序)提供了许多其他编程语言，比如我使用的 Matlab，以及快速例程来执行矩阵乘法等操作。然而，当将多个矩阵相乘时，有一个最佳顺序来“括号”矩阵。取自 wikipedia
boost - BLAS 和 CUBLAS
我想知道 NVIDIA 的 cuBLAS 库。有没有人有这方面的经验？例如，如果我使用 BLAS 编写一个 C 程序，我是否能够用对 cuBLAS 的调用替换对 BLAS 的调用？或者甚至更好地实现一
matrix - 如何使用 BLAS 执行向量矩阵乘法？
BLAS 定义了 GEMV(矩阵向量乘法)2 级运算。如何使用 BLAS 库执行向量矩阵乘法？这可能很明显，但我不知道如何使用 BLAS 运算进行乘法运算。我本来希望进行 GEVM 操作。最佳答案

首页

博学

6Ren·AI

商城

java - BLAS.dgemm方法多线程计算误差