c++ - 一维或二维数组，哪个更快？-6ren

c++ - 一维或二维数组，哪个更快？

转载作者：行者123 更新时间：2023-12-01 17:42:29

我需要表示一个二维字段(x、y 轴)，但我面临一个问题:我应该使用一维数组还是二维数组？
我可以想象，重新计算一维数组 (y + x*n) 的索引可能比使用二维数组 (x, y) 慢，但我可以想象一维可能在 CPU 缓存中。
我做了一些谷歌搜索，但只找到了关于静态数组的页面(并说明一维和二维基本相同)。但是我的数组必须是动态的。
有啥

更快，

更小 (RAM)

动态一维数组还是动态二维数组？

最佳答案

tl;dr :您可能应该使用一维方法。

注意:在比较动态 1d 或动态 2d 存储模式时，无法深入研究影响性能的细节而无需填写书籍，因为代码的性能取决于大量参数。如果可能，配置文件。

1. 什么更快？

对于密集矩阵，一维方法可能更快，因为它提供更好的内存局部性和更少的分配和释放开销。

2. 什么更小？

动态一维比二维方法消耗更少的内存。后者也需要更多的分配。

评论

我在下面列出了一个很长的答案，原因有几个，但我想先对你的假设发表一些评论。

I can imagine, that recalculating indices for 1D arrays (y + x*n) could be slower than using 2D array (x, y)

让我们比较一下这两个函数:

int get_2d (int **p, int r, int c) { return p[r][c]; }
int get_1d (int *p, int r, int c)  { return p[c + C*r]; }

Visual Studio 2015 RC 为这些函数(打开优化)生成的(非内联)程序集是:

?get_1d@@YAHPAHII@Z PROC
push    ebp
mov ebp, esp
mov eax, DWORD PTR _c$[ebp]
lea eax, DWORD PTR [eax+edx*4]
mov eax, DWORD PTR [ecx+eax*4]
pop ebp
ret 0

?get_2d@@YAHPAPAHII@Z PROC
push ebp
mov ebp, esp
mov ecx, DWORD PTR [ecx+edx*4]
mov eax, DWORD PTR _c$[ebp]
mov eax, DWORD PTR [ecx+eax*4]
pop ebp
ret 0

差异是 mov (2d) 与 lea (1d)。
前者有3个周期的延迟，每个周期的最大吞吐量为2个，而后者的延迟为2个周期，每个周期的最大吞吐量为3个。 (根据 Instruction tables - Agner Fog
由于差异很小，我认为应该不会因为索引重新计算而产生很大的性能差异。我预计这种差异本身不太可能成为任何程序中的瓶颈。

这将我们带到下一个(也是更有趣的)点:

... but I could image that 1D could be in CPU cache ...

没错，但 2d 也可以在 CPU 缓存中。有关为什么 1d 仍然更好的解释，请参阅 The Downsides: Memory locality。

长答案，或者为什么动态二维数据存储(指针到指针或 vector vector )对于简单/小矩阵“不好”。

注意:这是关于动态数组/分配方案 [malloc/new/vector 等]。静态二维数组是一个连续的内存块，因此不受我将在此处介绍的缺点的影响。

问题

为了能够理解为什么动态数组的动态数组或 vector 的 vector 很可能不是首选的数据存储模式，您需要了解此类结构的内存布局。

使用指向指针语法的指针的示例案例

int main (void)
{
    // allocate memory for 4x4 integers; quick & dirty
    int ** p = new int*[4];
    for (size_t i=0; i<4; ++i) p[i] = new int[4]; 

    // do some stuff here, using p[x][y] 

    // deallocate memory
    for (size_t i=0; i<4; ++i) delete[] p[i];
    delete[] p;
}

缺点

内存位置

对于这个“矩阵”，你分配了一个由四个指针组成的块和四个由四个整数组成的块。所有分配都是不相关的，因此可能导致任意内存位置。

下图将让您了解内存的外观。

对于真正的 2d 情况:

紫色方块是p本身占用的内存位置。

绿色方块组装了内存区域 p 指向(4 x int*)。

4个连续蓝色方块的4个区域是绿色区域

的每个 int*所指向的区域

对于映射在 1d 情况下的 2d:

绿色方块是唯一需要的指针 int *

蓝色方块集合了所有矩阵元素的内存区域 (16 x int )。

这意味着(当使用左侧布局时)您可能会观察到比连续存储模式(如右侧所示)更糟糕的性能，例如由于缓存。

假设缓存行是“一次传输到缓存中的数据量”，让我们想象一个程序一个接一个地访问整个矩阵。

如果您有一个正确对齐的 32 位值的 4 乘 4 矩阵，则具有 64 字节缓存线(典型值)的处理器能够“一次性”处理数据(4*4*4 = 64 字节)。
如果您开始处理并且数据不在缓存中，您将面临缓存未命中，数据将从主内存中获取。此加载可以一次获取整个矩阵，因为它适合缓存行，当且仅当它连续存储(并正确对齐)时。
处理该数据时可能不会再有任何遗漏。

在动态的、“真正的二维”系统中，每行/列的位置都不相关，处理器需要单独加载每个内存位置。
尽管只需要 64 个字节，但为 4 个不相关的内存位置加载 4 个缓存行 - 在最坏的情况下 - 实际上会传输 256 个字节并浪费 75% 的吞吐量带宽。
如果您使用 2d-scheme 处理数据，您将再次(如果尚未缓存)在第一个元素上遇到缓存未命中。
但是现在，在第一次从主内存加载后，只有第一行/列会在缓存中，因为所有其他行都位于内存中的其他位置，而不是与第一行相邻。
一旦到达新的行/列，就会再次发生缓存未命中，并执行从主内存的下一次加载。

长话短说:2d 模式有更高的缓存未命中机会，1d 方案由于数据的局部性提供了更好的性能潜力。

频繁分配/解除分配

多达 N + 1 (4 + 1 = 5) 次分配(使用 new、malloc、allocator::allocate 或其他)是创建所需的 NxM (4×4) 矩阵所必需的。

还必须应用相同数量的适当的相应解除分配操作。

因此，与单一分配方案相比，创建/复制此类矩阵的成本更高。

随着行数的增加，情况变得更糟。

内存消耗开销

我将假设 int 的大小为 32 位，指针的大小为 32 位。 (注意:系统依赖。)

让我们记住:我们想要存储一个 4×4 int 矩阵，这意味着 64 个字节。

对于 NxM 矩阵，与我们使用的所呈现的指针到指针方案一起存储

N*M*sizeof(int) [实际蓝色数据] +

N*sizeof(int*) [绿色指针] +

sizeof(int**) [紫色变量 p] 字节。

在本示例的情况下，这使得 4*4*4 + 4*4 + 4 = 84 字节，并且在使用 std::vector<std::vector<int>> 时变得更糟。
它将需要 N * M * sizeof(int) + N * sizeof(vector<int>) + sizeof(vector<vector<int>>) 字节，即总共 4*4*4 + 4*16 + 16 = 144 字节，即 64 字节，4 x 整数。

此外——取决于使用的分配器——每个单独的分配很可能(并且很可能会)有另外 16 字节的内存开销。 (一些“信息字节”存储分配的字节数，以便正确释放。)

这意味着最坏的情况是:

N*(16+M*sizeof(int)) + 16+N*sizeof(int*) + sizeof(int**)
= 4*(16+4*4) + 16+4*4 + 4 = 164 bytes ! _Overhead: 156%_

开销份额将随着矩阵大小的增加而减少，但仍会存在。

内存泄漏风险

大量分配需要适当的异常处理，以避免在其中一个分配失败时发生内存泄漏!
您需要跟踪分配的内存块，并且在释放内存时不能忘记它们。

如果 new 运行内存并且无法分配下一行(特别是当矩阵非常大时)，则 std::bad_alloc 会被 new 抛出。

示例:

在上面提到的新建/删除示例中，如果我们想在 bad_alloc 异常的情况下避免泄漏，我们将面临更多代码。

  // allocate memory for 4x4 integers; quick & dirty
  size_t const N = 4;
  // we don't need try for this allocation
  // if it fails there is no leak
  int ** p = new int*[N];
  size_t allocs(0U);
  try 
  { // try block doing further allocations
    for (size_t i=0; i<N; ++i) 
    {
      p[i] = new int[4]; // allocate
      ++allocs; // advance counter if no exception occured
    }
  }
  catch (std::bad_alloc & be)
  { // if an exception occurs we need to free out memory
    for (size_t i=0; i<allocs; ++i) delete[] p[i]; // free all alloced p[i]s
    delete[] p; // free p
    throw; // rethrow bad_alloc
  }
  /*
     do some stuff here, using p[x][y] 
  */
  // deallocate memory accoding to the number of allocations
  for (size_t i=0; i<allocs; ++i) delete[] p[i];
  delete[] p;

概括

在某些情况下，“真正的 2d”内存布局适合且有意义(即，如果每行的列数不是恒定的)，但在最简单和常见的 2D 数据存储情况下，它们只会增加代码的复杂性并降低性能和程序的内存效率。

选择

您应该使用一个连续的内存块并将您的行映射到该块上。

这样做的“C++ 方式”可能是编写一个类来管理您的内存，同时考虑诸如

What is The Rule of Three?

What is meant by Resource Acquisition is Initialization (RAII)?

C++ concept: Container (on cppreference.com)

例子

为了让您了解此类类的外观，这里有一个具有一些基本功能的简单示例:

2d 尺寸可构造

二维可调整大小

operator(size_t, size_t) 用于二维行主要元素访问

at(size_t, size_t) 用于检查二维行主要元素访问

满足容器

的概念要求

来源:

#include <vector>
#include <algorithm>
#include <iterator>
#include <utility>

namespace matrices
{

  template<class T>
  class simple
  {
  public:
    // misc types
    using data_type  = std::vector<T>;
    using value_type = typename std::vector<T>::value_type;
    using size_type  = typename std::vector<T>::size_type;
    // ref
    using reference       = typename std::vector<T>::reference;
    using const_reference = typename std::vector<T>::const_reference;
    // iter
    using iterator       = typename std::vector<T>::iterator;
    using const_iterator = typename std::vector<T>::const_iterator;
    // reverse iter
    using reverse_iterator       = typename std::vector<T>::reverse_iterator;
    using const_reverse_iterator = typename std::vector<T>::const_reverse_iterator;

    // empty construction
    simple() = default;

    // default-insert rows*cols values
    simple(size_type rows, size_type cols)
      : m_rows(rows), m_cols(cols), m_data(rows*cols)
    {}

    // copy initialized matrix rows*cols
    simple(size_type rows, size_type cols, const_reference val)
      : m_rows(rows), m_cols(cols), m_data(rows*cols, val)
    {}

    // 1d-iterators

    iterator begin() { return m_data.begin(); }
    iterator end() { return m_data.end(); }
    const_iterator begin() const { return m_data.begin(); }
    const_iterator end() const { return m_data.end(); }
    const_iterator cbegin() const { return m_data.cbegin(); }
    const_iterator cend() const { return m_data.cend(); }
    reverse_iterator rbegin() { return m_data.rbegin(); }
    reverse_iterator rend() { return m_data.rend(); }
    const_reverse_iterator rbegin() const { return m_data.rbegin(); }
    const_reverse_iterator rend() const { return m_data.rend(); }
    const_reverse_iterator crbegin() const { return m_data.crbegin(); }
    const_reverse_iterator crend() const { return m_data.crend(); }

    // element access (row major indexation)
    reference operator() (size_type const row,
      size_type const column)
    {
      return m_data[m_cols*row + column];
    }
    const_reference operator() (size_type const row,
      size_type const column) const
    {
      return m_data[m_cols*row + column];
    }
    reference at() (size_type const row, size_type const column)
    {
      return m_data.at(m_cols*row + column);
    }
    const_reference at() (size_type const row, size_type const column) const
    {
      return m_data.at(m_cols*row + column);
    }

    // resizing
    void resize(size_type new_rows, size_type new_cols)
    {
      // new matrix new_rows times new_cols
      simple tmp(new_rows, new_cols);
      // select smaller row and col size
      auto mc = std::min(m_cols, new_cols);
      auto mr = std::min(m_rows, new_rows);
      for (size_type i(0U); i < mr; ++i)
      {
        // iterators to begin of rows
        auto row = begin() + i*m_cols;
        auto tmp_row = tmp.begin() + i*new_cols;
        // move mc elements to tmp
        std::move(row, row + mc, tmp_row);
      }
      // move assignment to this
      *this = std::move(tmp);
    }

    // size and capacity
    size_type size() const { return m_data.size(); }
    size_type max_size() const { return m_data.max_size(); }
    bool empty() const { return m_data.empty(); }
    // dimensionality
    size_type rows() const { return m_rows; }
    size_type cols() const { return m_cols; }
    // data swapping
    void swap(simple &rhs)
    {
      using std::swap;
      m_data.swap(rhs.m_data);
      swap(m_rows, rhs.m_rows);
      swap(m_cols, rhs.m_cols);
    }
  private:
    // content
    size_type m_rows{ 0u };
    size_type m_cols{ 0u };
    data_type m_data{};
  };
  template<class T>
  void swap(simple<T> & lhs, simple<T> & rhs)
  {
    lhs.swap(rhs);
  }
  template<class T>
  bool operator== (simple<T> const &a, simple<T> const &b)
  {
    if (a.rows() != b.rows() || a.cols() != b.cols())
    {
      return false;
    }
    return std::equal(a.begin(), a.end(), b.begin(), b.end());
  }
  template<class T>
  bool operator!= (simple<T> const &a, simple<T> const &b)
  {
    return !(a == b);
  }

}

请注意以下几点:

T 需要满足使用的要求 std::vector 成员函数

operator() 不做任何“范围内”检查

无需自己管理数据

不需要析构函数、复制构造函数或赋值运算符

因此，您不必为每个应用程序进行适当的内存处理，而只需为您编写的类处理一次。

限制

在某些情况下，动态“真实”二维结构可能是有利的。例如，如果

矩阵非常大且稀疏(如果任何行甚至不需要分配但可以使用 nullptr 处理)或者如果

行的列数不同(也就是说，如果您根本没有矩阵，只有另一个二维结构)。

关于c++ - 一维或二维数组，哪个更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17259877/

文章推荐： Java - 在除 double 时无法将 double 转换为整数

文章推荐： java - Spring Singleton 意味着类级别没有数据共享？

文章推荐： JavaFX 使用 SwingNode 嵌入 JFileChooser 并获取选定的文件

文章推荐： javascript - 通过 Angular JS 发布多个数组数据

windows - FFMPEG - 加速视频延时 - 更快/更快？
好吧，我知道这个问题已经被问了无数次了。但是，对于我在谷歌搜索中似乎无法找到的问题，我还有一个小补充。我当然不是 FFMPEG 的专家……我一直在使用 FFMPEG 的标准加速/减速模板，我正在使用
CouchDB - 参数和 View - 幕后发生了什么，它是否比临时 View 更快/更快？
考虑这三个文档... [ { _id: "...", _rev: "...", title: "Foo", body: "...
c# - 在 App_Code 的类中使用 const 是否比在 webforms asp.net 应用程序的 config.web 中使用 appSettings 更快/更快？
我想知道访问我的全局变量的最快方法...它们只会在 Beta 测试阶段发生变化。在我们上线之前。从那时起，它们将永远不会改变。我认为从 web.config 中获取内容会产生开销，而且编写 App.
SQL:BETWEEN 和 IN(更快)
这个问题在这里已经有了答案: 11 年前关闭。 Possible Duplicate: Is there a performance difference between BETWEEN and IN
oracle - 全局分区索引是否比非分区索引更好(更快)？
我很想知道对通常作为查询目标的数字列进行分区是否有性能优势。目前我有一个包含约 5000 万条记录的物化 View 。当使用常规 b 树索引并按此数字列搜索时，我得到的成本为 7，查询结果大约需要 0
java - 更快/更好的方式如何进行多个远程内容获取
我需要编写一个库，它执行许多远程 HTTP 调用来获取内容。我可以按照描述做here ，但是有没有更好的方法(在性能方面)如何做到这一点？如果我按照示例中所述进行操作，我总是会创建一个 URL 对象，
javascript - 如何使这个谷歌表格脚本代码更短/更快？
该代码非常不言自明。只是有很多我需要独立随机化的范围。例如，范围('W1:W4')不应与范围('W5:W8')混淆，因此我不能只是随机化范围('W1:W80')。任何帮助或建议都会很棒!多谢。目前，代
android:哪个是最好的模拟器配置？更快
我正在使用 ADT 模拟器。我在我的模拟器中使用默认的 Android 虚拟设备。我创建了一个版本 4.0.3。问题太慢了。有时我在尝试更改 fragment 时会收到加载点击。我使用的代码是有
php - 更快/更轻松地查询此结果数组
我正在尝试获取一个包含三个表中的信息的数组。结果应该是一个数组，我可以在其中循环遍历第一个表、第二个表中的相关行以及第三个表到第二个表中的相关行。目前，我有三个独立的 SQL 查询，然后将它们重组为一
ios - 哪种方式在服务器上上传图片更好(更快)
我已经学会了两种在服务器上上传图像的方法(可能还有更多..)。 1) 创建 NSData 并将其添加到请求正文中 2)创建字节数组并像简单数组一样以json形式发送 1) 创建 NSData 并将其添
ios - ViewDidAppear 更快
我有一个 UItextview，我可以在里面写入数据类，我可以在我的 View 中的任何地方提供数据，在 ViewDidAppear 函数中我传递了我的数据，但它有点慢。文本在 0.2-0.3 秒后出
ios - discoverAllContactUserInfosWithCompletionHandler 更快？
如何为 discoverAllContactUserInfosWithCompletionHandler 创建优先级高于默认值的 CKOperation？我找不到不使用 [[CKContainer
linux - 调用内核级函数比clock()更快
我在 unix 模块下编写了一个内核级函数，用于对系统负载进行采样。我在 clock.c 下的 clock() 中调用示例函数，以在每个时钟(例如，我的系统上每 10 毫秒)拍摄系统负载的快照。有没有
c++ - ReadProcessMemory 更快
我正在制作一个应用程序，该应用程序将根据变量的值使用鼠标/键盘(宏)模拟操作。这里有我制作的 de 扫描代码: void ReadMemory(int value){ DWORD p
javascript - 为什么调用嵌套在函数对象中的函数比...更快？
我想知道在计算上调用嵌套在对象中的函数的最快方法是什么，所以我做了一个快速的 jsPerf.com 基准测试，其中我考虑了三种可能性——从数组中调用函数，从“核心”中调用函数对象和函数对象: var
php - 调用缓存图像时哪个更有效/更快？
我用 php 做了一个图像缩放器。调整图像大小时，它会缓存一个具有新尺寸的新 jpg 文件。下次您调用确切的 img.php?file=hello.jpg&size=400 时，它会检查是否已经创建了
C#，结构与类，更快？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Which is best for data store Struct/Classes? 考虑我有一个 Em
r - 为多组列动态创建行的替代(更快)方法
我正在尝试为多组列自动计算每行的平均分数。例如。一组列可以代表不同比例的项目。这些列也被系统地命名 (scale_itemnumber)。例如，下面的虚拟数据框包含来自三个不同比例的项目。(可能会出
java - 是什么让 hashmap 更快？
所以我知道散列图使用桶和散列码等等。根据我的经验，Java 哈希码并不小，但通常很大，所以我假设它没有在内部建立索引。除非哈希码质量很差导致桶长度和桶数量大致相等，否则 HashMap 比名称-> 值
java - 如何使用多线程使慢速 "for loop"更快？
假设我有一个非常缓慢和大的 for 循环。如何将其拆分为多个线程以使其运行速度更快？ for (int a = 0; a { slowMet

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 一维或二维数组，哪个更快？