fortran - LAPACK:对打包存储矩阵的操作是否更快？-6ren

fortran - LAPACK:对打包存储矩阵的操作是否更快？

转载作者：行者123 更新时间：2023-12-04 03:59:51

37

4

我想使用Fortran和LAPACK对角化一个实对称矩阵。 LAPACK基本上提供了两个例程，一个例程在完整矩阵上运行，另一个例程在打包存储中的矩阵上运行。虽然后者肯定会使用较少的内存，但我想知道关于速度差异是否可以说些什么？

最佳答案

当然，这是一个经验性的问题:但是总的来说，没有什么是免费的，更少的内存/更多的运行时间是很常见的折衷方案。

在这种情况下，对于打包的情况，数据的索引会更复杂，因此在遍历矩阵时，获取数据的成本会稍高一些。 (使这张图复杂的是对称矩阵，lapack例程还假定某种打包-您只拥有可用矩阵的上层或下层组件)。

今天早些时候我在处理一个本征问题，所以我将其用作度量基准。尝试使用简单的对称测试用例(Herdon矩阵，来自http://people.sc.fsu.edu/~jburkardt/m_src/test_mat/test_mat.html)，并将ssyevd与sspevd进行比较

$ ./eigen2 500
 Generating a Herdon matrix: 
 Unpacked array:
 Eigenvalues L_infty err =   1.7881393E-06
 Packed array:
 Eigenvalues L_infty err =   3.0994415E-06
 Packed time:   2.800000086426735E-002
 Unpacked time:   2.500000037252903E-002

$ ./eigen2 1000
 Generating a Herdon matrix: 
 Unpacked array:
 Eigenvalues L_infty err =   4.5299530E-06
 Packed array:
 Eigenvalues L_infty err =   5.8412552E-06
 Packed time:   0.193900004029274     
 Unpacked time:   0.165000006556511  

$ ./eigen2 2500
 Generating a Herdon matrix: 
 Unpacked array:
 Eigenvalues L_infty err =   6.1988831E-06
 Packed array:
 Eigenvalues L_infty err =   8.4638596E-06
 Packed time:    3.21040010452271     
 Unpacked time:    2.70149993896484

大约有18％的差异，我必须承认这个差异要比我预期的要大(对于带包装的包装箱，误差也略大吗？)。这是intel的MKL。当然，性能差异将取决于您的矩阵，当然，正如令人毛骨悚然的指出的那样，还取决于您正在执行的问题。您对矩阵所做的随机访问越多，开销将越差。我使用的代码如下:

program eigens
      implicit none

      integer :: nargs,n  ! problem size 
      real, dimension(:,:), allocatable :: A, B, Z
      real, dimension(:), allocatable :: PA
      real, dimension(:), allocatable :: work
      integer, dimension(:), allocatable :: iwork
      real, dimension(:), allocatable :: eigenvals, expected
      real :: c, p
      integer :: worksize, iworksize
      character(len=100) :: nstr
      integer :: unpackedclock, packedclock 
      double precision :: unpackedtime, packedtime
      integer :: i,j,info

! get filename
      nargs = command_argument_count()
      if (nargs /= 1) then
          print *,'Usage: eigen2 n'
          print *,'       Where n = size of array'
          stop
      endif
      call get_command_argument(1, nstr)
      read(nstr,'(I)') n
      if (n < 4 .or. n > 25000) then
          print *, 'Invalid n ', nstr
          stop
      endif


! Initialize local arrays    

      allocate(A(n,n),B(n,n))
      allocate(eigenvals(n)) 

! calculate the matrix - unpacked

      print *, 'Generating a Herdon matrix: '

      A = 0.
      c = (1.*n * (1.*n + 1.) * (2.*n - 5.))/6.
      forall (i=1:n-1,j=1:n-1)
        A(i,j) = -1.*i*j/c
      endforall
      forall (i=1:n-1)
        A(i,i) = (c - 1.*i*i)/c
        A(i,n) = 1.*i/c
      endforall
      forall (j=1:n-1)
        A(n,j) = 1.*j/c
      endforall
      A(n,n) = -1./c
      B = A

      ! expected eigenvalues
      allocate(expected(n))
      p = 3. + sqrt((4. * n - 3.) * (n - 1.)*3./(n+1.))
      expected(1) = p/(n*(5.-2.*n))
      expected(2) = 6./(p*(n+1.))
      expected(3:n) = 1.

      print *, 'Unpacked array:'
      allocate(work(1),iwork(1))
      call ssyevd('N','U',n,A,n,eigenvals,work,-1,iwork,-1,info)
      worksize = int(work(1))
      iworksize = int(work(1))
      deallocate(work,iwork)
      allocate(work(worksize),iwork(iworksize))

      call tick(unpackedclock)
      call ssyevd('N','U',n,A,n,eigenvals,work,worksize,iwork,iworksize,info)
      unpackedtime = tock(unpackedclock)
      deallocate(work,iwork)

      if (info /= 0) then
           print *, 'Error -- info = ', info
      endif
      print *,'Eigenvalues L_infty err = ', maxval(eigenvals-expected)


      ! pack array

      print *, 'Packed array:'
      allocate(PA(n*(n+1)/2))
      allocate(Z(n,n))
      do i=1,n 
        do j=i,n
           PA(i+(j-1)*j/2) = B(i,j)
        enddo
      enddo

      allocate(work(1),iwork(1))
      call sspevd('N','U',n,PA,eigenvals,Z,n,work,-1,iwork,-1,info)
      worksize = int(work(1))
      iworksize = iwork(1)
      deallocate(work,iwork)
      allocate(work(worksize),iwork(iworksize))

      call tick(packedclock)
      call sspevd('N','U',n,PA,eigenvals,Z,n,work,worksize,iwork,iworksize,info)
      packedtime = tock(packedclock)
      deallocate(work,iwork)
      deallocate(Z,A,B,PA)

      if (info /= 0) then
           print *, 'Error -- info = ', info
      endif
      print *,'Eigenvalues L_infty err = ', &
      maxval(eigenvals-expected)

      deallocate(eigenvals, expected)


      print *,'Packed time: ', packedtime
      print *,'Unpacked time: ', unpackedtime


contains
    subroutine tick(t)
        integer, intent(OUT) :: t

        call system_clock(t)
    end subroutine tick

    ! returns time in seconds from now to time described by t
    real function tock(t)
        integer, intent(in) :: t
        integer :: now, clock_rate

        call system_clock(now,clock_rate)

        tock = real(now - t)/real(clock_rate)
    end function tock

end program eigens

关于fortran - LAPACK:对打包存储矩阵的操作是否更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8941678/

37

4

0

文章推荐： unit-testing - 如何 Junit 测试 servlet-filters

文章推荐： delegates - Storyboard中的SplitView，无法连接委托(delegate)

带有版本参数和依赖项的 nuget 打包
我在使用 nuget 打包新包时遇到问题，因为当我通过命令行指定版本时，它会将它应用于包而不是依赖项。即 NuGet.exe pack myproject.csproj -Version 3.0.4.
Perl 打包/解包和二进制字符串的长度
考虑这个简短的例子: $a = pack("d",255); print length($a)."\n"; # Prints 8 $aa = pack("ddddd", 255,123,0,45,12
perl - 打包/解包二进制数据数组
我有一个我想要的无符号整数数组(32 位) pack 成二进制流: my @n = (4,8,15,16,23,42); my $foo = join('', map(pack('I', $_), @
java - 打包 Tomcat
在我的工作中，我们必须在各种环境中部署应用程序。这是一个标准的 WAR 文件，需要一些配置，部署在 Tomcat 6 上。有没有什么方法可以使用 Tomcat 创建一个“部署包”，以便您只需提取它并
c - 打包/解包缓冲区
我正在编写一个简单的数据包序列化程序，但我很难为我的数据包创建 header 。我正在创建一个缓冲区，然后尝试将前两项加载到缓冲区中。我运行 memcopy 但缓冲区中实际上没有任何内容，然后当我尝试
python tkinter 打包
有人可以解释为什么当你有一个普通的小部件时，一行代码 A 可以工作 Entry(root, width=10).pack(side=LEFT,anchor=W) 但是当你给它命名或附加命令时，代码 A
Python 打包 - 名称错误
我正在尝试使用this tutorial构建Python包。这是文件夹结构: testpackage\ testpackage\ __init__.py
java - 打包，但不要变小
我有 JFrame 和 GridBagLayout。用户可以调整此窗口的大小。此外，他还可以执行一些更改窗口大小的编辑操作。我使用 pack(); repaint(); 现在在这样的操作之后。但是，实
通过分组优化 Python 打包
我有一个现实世界的问题，我认为需要某种优化，而不是对我关心的数据数组进行简单排序。我将在下面概述问题: 我有一个由不同设备组成的数据集，每个设备都有属性 A 和 B。A 和 B 彼此不依赖，但是，我想
PHP 打包/部署
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
PHP 打包/解包错误
我必须将旧的“加密”数据从旧系统转换为适当的加密算法。我有这段代码: function unpackString($s,$l){ $tmp=unpack('c'.$l,$s);
python - 打包/解包发电机
我有两个发电机。第一个生成器有时需要调用第二个生成器并返回它从那里获得的值: def a(): for _b in b(): yield _b def b(): yie
用于相对导入的 python 打包
首先:对不起，我知道有很多关于相对导入的问题，但我只是没有找到解决方案。如果可能的话，我想使用以下目录布局: myClass/ __init__.py test/ de
ambari+bigtop编译、打包、部署步骤总览
1 ambari + bigtop 构建大数据基础平台 1.1 参考： 1.2 参考 amabri bigtop 打包部署
configuration - 如何将配置参数传递给 SimpleInjector 打包？
所以 SimpleInjector 现在有一个包装 nuget，您可以使用它来隔离根组合的不同方面。假设我在一个库中有一个可配置的组合根，它被应用程序中的多个项目重用。例如，在 Azure 解决方案
groovy - 打包 Groovy 应用程序
我想以易于分发的形式打包 Groovy CLI 应用程序，类似于 Java 对 JAR 所做的。我一直无法找到任何似乎能够做到这一点的东西。我发现了一些类似 this 的东西用于一次性脚本，但不能编译
plone - 更具交互性的 ZODB 打包
目前 ZMI 管理“打包数据库”的功能有点粗糙。 1) 是否有可能为 Web UI 提供某种进度指示器？例如。一个告诉你还剩多少分钟/小时，至少给出某种估计 2) ZODB 打包如何影响站点的响应性？
c++ - 打包 union/结构以避免填充
我有一个看起来像这样的结构: struct vdata { static_assert(sizeof(uint8_t *) == 8L, "size of pointer must be 8");
.net - 打包/发布Azure项目时出现System.OutOfMemoryException
我已经尝试打包/发布我的 Azure 项目有一段时间了(但没有成功)。我尝试过以下方法: 右键单击 -> 从 Visual Studio 打包/发布 (OutOfMemoryException) CS
javascript - 打包 JavaScript 库后对象消失
我创建了一个 JavaScript 库，并将其打包为以下选定的选项:Shrink Variables和Base62 Encoded在这个网址:http://dean.edwards.name/pack

首页

博学

6Ren·AI

商城

fortran - LAPACK:对打包存储矩阵的操作是否更快？