c - 使用循环平铺转置大型二维矩阵没有性能提升-6ren

c - 使用循环平铺转置大型二维矩阵没有性能提升

转载作者：行者123 更新时间：2023-12-04 18:37:16

27

4

使用平铺方法(缓存感知)转置大小为 1 gb 的全局二维方矩阵/数组在单线程执行中与普通转置方法相比没有性能提升。不讨论使用 AVX、SSE(SIMD) 或任何其他缓存不经意转置算法的转置加速 ( http://supertech.csail.mit.edu/papers/FrigoLePr12.pdf )

#include <stdio.h>
#include <sys/time.h>
#define SIZE 16384
float a[SIZE][SIZE], b[SIZE][SIZE];

void testNormalTranspose() {
int i, j, k, l;
b[0][9999] = 1.0;
for (i=0; i<SIZE; i++)
    for (j=0; j<SIZE; j++)
      a[i][j] = b[j][i];
}

void testTiledTranspose(){
    int i, j, k, l;
    b[0][9999] = 1.0;
    int blocksize = 16;
    for (i=0; i<SIZE; i+= blocksize) {
        for (j=0; j<SIZE; j+=blocksize) {
            for (int ii = i;ii <i + blocksize; ++ii) {
                for (int jj = j; jj < j + blocksize; ++jj) {
                    a[ii][jj] = b[jj][ii];
                }

            }
        }   
    }  
}

int main()
{
    struct timeval t1, t2;
    /*
      gettimeofday(&t1, NULL);
      testNormalTranspose();
      gettimeofday(&t2, NULL);
      printf("Time for the Normal transpose  is %ld milliseconds\n",
             (t2.tv_sec - t1.tv_sec)*1000 + 
             (t2.tv_usec - t1.tv_usec) / 1000);
    */
      gettimeofday(&t1, NULL);
      testTiledTranspose();
      gettimeofday(&t2, NULL);
      printf("Time for the Tiled transpose  is %ld milliseconds\n",
             (t2.tv_sec - t1.tv_sec)*1000 + 
             (t2.tv_usec - t1.tv_usec) / 1000);
      printf("%f\n", a[9999][0]);
}

最佳答案

如果数据被重复使用，循环平铺会有所帮助。如果您使用某个元素 SIZE 次，则最好使用它 SIZE 次，然后才继续处理下一个元素。

不幸的是，转置 2D 矩阵你没有重用矩阵 a 或 b 的任何元素。更重要的是，由于在循环中您混合了行和列访问(即 a[i][j] = b[j][i])，您将永远不会同时对 a 和 b 数组进行单位步幅内存访问时间，但只有其中一个。

因此，在这种情况下，平铺并不是那么有效，但如果出现以下情况，即使使用“随机”内存访问，您仍然可能会有一些性能改进:

您现在访问的元素与您之前访问的元素在同一缓存行上并且
该缓存行仍然可用。

因此，要看到任何改进，这种“随机”访问的内存占用必须适合您系统的缓存。基本上这意味着您必须仔细选择 blocksize，您在示例中选择的 16 可能在一个系统上运行得更好而在另一个系统上运行更差。

以下是我的计算机针对 2 block 大小和 SIZE 4096 的不同幂的结果:

---------------------------------------------------------------
Benchmark                        Time           CPU Iterations
---------------------------------------------------------------
transpose_2d              32052765 ns   32051761 ns         21
tiled_transpose_2d/2      22246701 ns   22245867 ns         31
tiled_transpose_2d/4      16912984 ns   16912487 ns         41
tiled_transpose_2d/8      16284471 ns   16283974 ns         43
tiled_transpose_2d/16     16604652 ns   16604149 ns         42
tiled_transpose_2d/32     23661431 ns   23660226 ns         29
tiled_transpose_2d/64     32260575 ns   32259564 ns         22
tiled_transpose_2d/128    32107778 ns   32106793 ns         22
fixed_tile_transpose_2d   16735583 ns   16729876 ns         41

如您所见，blocksize 8 的版本最适合我，性能几乎翻了一番。

以下是 SIZE 4131 和 3 block 大小的幂的结果:

---------------------------------------------------------------
Benchmark                        Time           CPU Iterations
---------------------------------------------------------------
transpose_2d              29875351 ns   29874381 ns         23
tiled_transpose_2d/3      30077471 ns   30076517 ns         23
tiled_transpose_2d/9      20420423 ns   20419499 ns         35
tiled_transpose_2d/27     13470242 ns   13468992 ns         51
tiled_transpose_2d/81     11318953 ns   11318646 ns         61
tiled_transpose_2d/243    10229250 ns   10228884 ns         65
fixed_tile_transpose_2d   10217339 ns   10217066 ns         67

关于 16384 尺寸问题。我无法重现它，即我仍然看到大矩阵的相同增益。请注意，16384 * 16384 * sizeof(float) 产生 4GB，这可能会暴露一些系统问题...

关于c - 使用循环平铺转置大型二维矩阵没有性能提升，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46011604/

27

4

0

文章推荐： access-control - 如何将 APDU 发送到 Mifare Classic 1k 卡？

文章推荐： QTableView:dataChanged 事件清除正在编辑的单元格

文章推荐： Kubernetes : Service shared between multiple namespaces

java - 如何在android中使用工具栏创 build 置
我有一个“设置首选项”屏幕。它有一个 ListPreference 和一个 CheckBoxPreference。当我选择 ListPreference 的一项时，我想更改应用程序的日期格式。另外，通
c++ - Qt如何创 build 置/配置窗口
我试图找到创 build 置/配置窗口的示例。单击菜单项中的“选项”操作可启动设置窗口。我想弄清楚如何从主窗口打开第二个窗口。以及新窗口如何将设置信息返回主窗口。尝试使用 QDialog 或一些继承的
c++ - 为 Qt 项目创 build 置
我在 Lnux 上有 Qt 应用程序。我想为此创建一个可执行文件/设置以便在 Windows 上分发它并且不需要安装 Qt。我通过包含所有 dll 为此创建了可执行文件但要运行它，用户需要进入文件夹。
Javascript - 创 build 置 div 宽度的动态类
我正在尝试创建一个有点动态的 html 类，它根据类末尾包含的数字设置宽度 %。注意:类名将始终以“gallery-item-”开头示例:div.gallery-item-20 = 20% 宽度我
android - 如何创 build 置 Activity 以从底部出现一半的屏幕？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
android - 如何在 Android 应用程序中创 build 置
在我的应用程序中，我想记住一些变量，例如，如果用户登录过一次，那么他们将在下次重新打开应用程序时登录，或者如果他们决定禁用某些提醒，应用程序可以检查该变量是否是错误的，将不再显示该提醒。理想情况下，这
java - 如何为 Java 应用程序创 build 置？
我在 Netbeans 中开发了一个应用程序，它连接到远程计算机的消息队列并发送消息。该应用程序还有其他功能。项目完成后，我清理并构建应用程序，然后 Netbeans 创建一个 jar 文件。但我的
.net - 为 Outlook 2010 加载项创 build 置
我创建了一个 Outlook 加载项，需要创建一个设置以使其可分发(我是新手，所以请原谅新手评论) Outlook -2010 Vs -2010 .Net 4.0 我读了一些地方，最简单的方法就是发
java - 在 java swing 应用程序中创 build 置
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: How to make installer pack of Java swing Application Proje
c# - 在 WPF 应用程序中创 build 置 View
这个问题肯定已经被很多人解决过很多次了，但是经过几个小时的研究，我仍然没有找到我要找的东西。我有一个 ExportSettings.settings 文件，其中包含一堆设置( bool 值、字符串、
linux - 为 Linux C 项目创 build 置
我想为我的项目创建一个安装程序，以便它可以安装在任何电脑上而无需安装头文件。我怎样才能做到这一点？最佳答案一般有两种分发程序的方法: 源代码分发(要构建的源代码)。最常见的方法是使用 GNU au
java - 如何为 Android 动态壁纸创 build 置 Activity
如何在这样的动态壁纸中创 build 置 Activity ？ Example Picture 我只用一个简单的文本构建了设置 Activity ，但遇到了一些问题。第一个问题是我不能为此 Activ
python - 如何为具有依赖项的 Python 项目创 build 置/安装程序？
我用 GUI 创建了一个简单的软件。它有几个源文件。我可以在我的编辑器中运行该项目。我认为它已经为 1.0 版本做好了准备。但我不知道如何为我的软件创 build 置/安装程序。源代码是python
android - 在 Android P 上创 build 置 Activity
我的 SettingsActivity当前扩展了 Android Studio 生成的类，AppCompatPreferenceActivity扩展 PreferenceActivity . Acti
c# - 创 build 置 (MSI) 以注册(regasm)程序集
我正在使用 .NET 为 IE 开发工具栏。目前，我使用 gacutil 插入我的 .NET 程序集，并使用 regasm 注册我的 COM 程序集。我想为项目创建一个设置 (MSI)，但我似乎无法
android - 创 build 置 Activity 时出现 boolean 参数问题
在为设置页面创建 Activity 后，我注意到 if (mCurrentValue !== value) 中的 mCurrentValue !== value 返回警告: Identity equa
c# - 在 visual studio 10 中创 build 置
我在 Visual Studio 10 中创建了一个项目，该项目使用 Mysql 数据库和 Crystalreports 以及它。但是我不知道如何进行自动安装 Mysql 和 Crystalrepo
c# - 在 C# 项目中使用 sqlite 数据库并创 build 置
我正在尝试在我的 C# 项目中使用 Sqlite 数据库，并且我在 IDE 中做得很好。我的问题是当我为我的项目制作安装包并安装它时，程序无法访问 sqlite 数据库。我也知道这是因为用户没有访问文
c# - 如何使用 Web 平台安装程序为 Web 应用程序创 build 置
我有一个大型 Web 应用程序(带有 11 子系统的 ErP)，我想使用 Microsoft WebPI 为它创建一个设置。目前，我们每周向客户发送一次应用程序(用于每周更新)。我们在此应用程序中
visual-studio - 在 visual studio 2008 中为项目解决方案创 build 置
所以我对工资单申请的最终查询是 - 如何为薪资申请创 build 置？我需要知道的一切- 如何将设置项目添加到我现有的解决方案如何将解决方案中的文件添加到安装项目中，以及添加哪些文件添加和在什么文

首页

博学

6Ren·AI

商城

c - 使用循环平铺转置大型二维矩阵没有性能提升