c++ - 将 vector vector 转换为具有相反存储顺序的单个连续 vector 的更快方法-6ren

c++ - 将 vector vector 转换为具有相反存储顺序的单个连续 vector 的更快方法

转载作者：IT老高更新时间：2023-10-28 23:19:43

我有一个 std::vector<std::vector<double>>我试图尽快转换为单个连续 vector 。我的 vector 的形状大约为 4000 x 50 .

问题是，有时我需要以列为主连续顺序的输出 vector (只是连接我的 2d 输入 vector 的内部 vector )，有时我需要以行为主连续顺序的输出 vector ，实际上需要转置。

我发现一个简单的 for 循环转换为列主 vector 的速度非常快:

auto to_dense_column_major_naive(std::vector<std::vector<double>> const & vec)
    -> std::vector<double>
{
    auto n_col = vec.size();
    auto n_row = vec[0].size();
    std::vector<double> out_vec(n_col * n_row);
    for (size_t i = 0; i < n_col; ++i)
        for (size_t j = 0; j < n_row; ++j)
            out_vec[i * n_row + j] = vec[i][j];
    return out_vec;
}

但显然，由于所有缓存未命中，类似的方法对于逐行转换来说非常慢。因此，对于逐行转换，我认为促进缓存局部性的阻塞策略可能是我最好的选择:

auto to_dense_row_major_blocking(std::vector<std::vector<double>> const & vec)
    -> std::vector<double>
{
    auto n_col = vec.size();
    auto n_row = vec[0].size();
    std::vector<double> out_vec(n_col * n_row);
    size_t block_side = 8;

    for (size_t l = 0; l < n_col; l += block_side) {
        for (size_t k = 0; k < n_row; k += block_side) {
            for (size_t j = l; j < l + block_side && j < n_col; ++j) {
                auto const &column = vec[j];
                for (size_t i = k; i < k + block_side && i < n_row; ++i)
                    out_vec[i * n_col + j] = column[i];
            }
        }
    }
    return out_vec;
}

这比行优先转换的朴素循环快得多，但仍然比输入大小的朴素列优先循环慢几乎一个数量级。

我的问题是 ，是否有更快的方法将 double vector 的(列主) vector 转换为单个连续的行主 vector ？我正在努力推理这段代码的速度限制应该是多少，因此我怀疑我是否遗漏了一些明显的东西。我的假设是阻塞会给我一个比它实际提供的更大的加速。

该图表是使用 QuickBench 生成的(并在我的机器上本地使用 GBench 进行了一些验证)，代码如下:(Clang 7、C++20、-O3)

auto to_dense_column_major_naive(std::vector<std::vector<double>> const & vec)
    -> std::vector<double>
{
    auto n_col = vec.size();
    auto n_row = vec[0].size();
    std::vector<double> out_vec(n_col * n_row);
    for (size_t i = 0; i < n_col; ++i)
        for (size_t j = 0; j < n_row; ++j)
            out_vec[i * n_row + j] = vec[i][j];
    return out_vec;
}

auto to_dense_row_major_naive(std::vector<std::vector<double>> const & vec)
    -> std::vector<double>
{
    auto n_col = vec.size();
    auto n_row = vec[0].size();
    std::vector<double> out_vec(n_col * n_row);
    for (size_t i = 0; i < n_col; ++i)
        for (size_t j = 0; j < n_row; ++j)
            out_vec[j * n_col + i] = vec[i][j];
    return out_vec;
}

auto to_dense_row_major_blocking(std::vector<std::vector<double>> const & vec)
    -> std::vector<double>
{
    auto n_col = vec.size();
    auto n_row = vec[0].size();
    std::vector<double> out_vec(n_col * n_row);
    size_t block_side = 8;

    for (size_t l = 0; l < n_col; l += block_side) {
        for (size_t k = 0; k < n_row; k += block_side) {
            for (size_t j = l; j < l + block_side && j < n_col; ++j) {
                auto const &column = vec[j];
                for (size_t i = k; i < k + block_side && i < n_row; ++i)
                    out_vec[i * n_col + j] = column[i];
            }
        }
    }
    return out_vec;
}

auto to_dense_column_major_blocking(std::vector<std::vector<double>> const & vec)
    -> std::vector<double>
{
    auto n_col = vec.size();
    auto n_row = vec[0].size();
    std::vector<double> out_vec(n_col * n_row);
    size_t block_side = 8;

    for (size_t l = 0; l < n_col; l += block_side) {
        for (size_t k = 0; k < n_row; k += block_side) {
            for (size_t j = l; j < l + block_side && j < n_col; ++j) {
                auto const &column = vec[j];
                for (size_t i = k; i < k + block_side && i < n_row; ++i)
                    out_vec[j * n_row + i] = column[i];
            }
        }
    }
    return out_vec;
}

auto make_vecvec() -> std::vector<std::vector<double>>
{
  std::vector<std::vector<double>> vecvec(50, std::vector<double>(4000));
  std::mt19937 mersenne {2019};
  std::uniform_real_distribution<double> dist(-1000, 1000);
  for (auto &vec: vecvec)
   for (auto &val: vec)
       val = dist(mersenne);
  return vecvec;
}

static void NaiveColumnMajor(benchmark::State& state) {
  // Code before the loop is not measured

  auto vecvec = make_vecvec();
  for (auto _ : state) {
    benchmark::DoNotOptimize(to_dense_column_major_naive(vecvec));
  }
}
BENCHMARK(NaiveColumnMajor);

static void NaiveRowMajor(benchmark::State& state) {
  // Code before the loop is not measured

  auto vecvec = make_vecvec();
  for (auto _ : state) {
    benchmark::DoNotOptimize(to_dense_row_major_naive(vecvec));
  }
}
BENCHMARK(NaiveRowMajor);

static void BlockingRowMajor(benchmark::State& state) {
  // Code before the loop is not measured

  auto vecvec = make_vecvec();
  for (auto _ : state) {
    benchmark::DoNotOptimize(to_dense_row_major_blocking(vecvec));
  }
}
BENCHMARK(BlockingRowMajor);

static void BlockingColumnMajor(benchmark::State& state) {
  // Code before the loop is not measured

  auto vecvec = make_vecvec();
  for (auto _ : state) {
    benchmark::DoNotOptimize(to_dense_column_major_blocking(vecvec));
  }
}
BENCHMARK(BlockingColumnMajor);

最佳答案

首先，每当某些东西被限定为“显然”时，我都会畏缩。这个词经常用来掩盖一个人在推理中的缺点。

But obviously a similar approach is very slow for row-wise conversion, because of all of the cache misses.

我不确定哪个应该是显而易见的:逐行转换会很慢，或者由于缓存未命中而变慢。无论哪种情况，我都觉得这并不明显。毕竟，这里有两个缓存注意事项，不是吗？一读一写？我们从阅读的角度来看代码:
row_major_naive

for (size_t i = 0; i < n_col; ++i)
    for (size_t j = 0; j < n_row; ++j)
        out_vec[j * n_col + i] = vec[i][j];

连续读取来自 vec是连续内存的读取: vec[i][0]其次是 vec[i][1]等，非常适合缓存。所以...缓存未命中？减缓？ :) 也许不那么明显。
尽管如此，还是可以从中得到一些启示。只有声称“显然”是错误的。存在非局部性问题，但它们发生在写入端。 (连续写入被 50 个 double 值的空间所抵消。)经验测试证实了缓慢。所以也许一个解决方案是翻转被认为是“明显”的东西？
行专业翻转

for (size_t j = 0; j < n_row; ++j)
    for (size_t i = 0; i < n_col; ++i)
        out_vec[j * n_col + i] = vec[i][j];

我在这里所做的只是反转循环。从字面上交换这两行代码的顺序，然后调整缩进。现在连续读取可能无处不在，因为它们从不同的 vector 中读取。但是，连续写入现在是对连续的内存块。从某种意义上说，我们的处境和以前一样。但就像以前一样，在假设“快”或“慢”之前应该先衡量性能。
NaiveColumnMajor:3.4 秒
NaiveRowMajor:7.7 秒
翻转行主要:4.2 秒
BlockingRowMajor:4.4 秒
BlockingColumnMajor:3.9 秒
仍然比朴素的列主要转换慢。但是，这种方法不仅比 naive row major 快，而且也比 快。阻塞 行专业。至少在我的电脑上(使用 gcc -O3 显然 :P 迭代数千次)。里程可能会有所不同。我不知道花哨的分析工具会说什么。关键是有时越简单越好。
对于 funsies，我做了一个测试，其中维度交换了(从 4000 个元素的 50 个 vector 更改为 50 个元素的 4000 个 vector )。所有方法都以这种方式受到伤害，但“NaiveRowMajor”受到的打击最大。值得注意的是，“翻转行专业”落后于阻塞版本。因此，正如人们所期望的那样，适合这项工作的最佳工具取决于具体的工作内容。
NaiveColumnMajor:3.7 秒
NaiveRowMajor: 16 秒
翻转行主要:5.6 秒
BlockingRowMajor:4.9 秒
BlockingColumnMajor:4.5 秒
(顺便说一句，我还尝试了阻塞版本的翻转技巧。变化很小 - 大约 0.2 - 与翻转天真的版本相反。也就是说，对于问题的“翻转阻塞”比“阻塞”慢50-of-4000 vector ，但对于我的 4000-of-50 变体更快。微调可能会改善结果。)

更新:我对阻塞版本的翻转技巧进行了更多测试。这个版本有四个循环，所以“翻转”不像只有两个循环那样直接。看起来交换外部两个循环的顺序对性能不利，而交换内部两个循环的顺序是好的。 (最初，我已经完成了这两项工作，但结果喜忧参半。)当我只交换内部循环时，我测量了 。 3.8 秒 (在 4000-of-50 场景中为 4.1 秒)，使其成为我测试中最好的行优先选项。
排大杂种

for (size_t l = 0; l < n_col; l += block_side)
    for (size_t i = 0; i < n_row; ++i)
        for (size_t j = l; j < l + block_side && j < n_col; ++j)
            out_vec[i * n_col + j] = vec[j][i];

(交换内循环后，我合并了中间循环。)
至于这背后的理论，我猜这相当于一次尝试写入一个缓存块。一旦一个块被写入，在它们从缓存中弹出之前尝试重用 vector ( vec[j])。用完这些源 vector 后，转到一组新的源 vector ，再次一次写入完整块。

关于c++ - 将 vector vector 转换为具有相反存储顺序的单个连续 vector 的更快方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55232880/

文章推荐： windows - Bamboo远程构建代理安装nodejs后找不到powershell.exe

文章推荐： angularjs - 由于 yeoman mean 中的警告，grunt 服务中止

文章推荐： javascript - 在 ESLint 中替换按位运算

PHP 与 .= 相反
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
JQuery find() 相反
我想从输入对象内部开始找到下一个表单元素。Find() 是查找子对象的绝佳函数。但是在父级中寻找相反的方法呢？
jquery 与 $(this) 相反
是否可以执行$(this)的相反操作？因此，它不是获取 this 元素，而是获取与 .sb-popular-thumb a 匹配但不包括 $(this) 的所有内容？请参阅下面的示例代码。我已用
javascript - 与词法 this 相反
这是一个关于术语的问题。考虑到有一个方法使用词法this: var foo = { method: function () { console.log(this, ' is the co
mysql - 与 "where in"相反
我想问你是否存在一个与 WHERE IN 相反的命令，我想选择数组中具有不同参数的所有行。 1 && id <> 2 && id <> 3"; // how can i do the same q
python - 获取列表切片的补码(相反)
是否有语法来获取不在给定切片内的列表元素？给定切片 [1:4] 很容易得到这些元素: >>> l = [1,2,3,4,5] >>> l[1:4] [2, 3, 4] 如果我想要列表的其余部分，我可以
javascript - 与推()相反；
这个问题在这里已经有了答案: How can I remove a specific item from an array? (138 个回答) 关闭8年前。 JavaScript push(); 方
如果一列为Null，则SQL返回Null(与COALESCE()相反)
在此先感谢您的帮助。这是一个很棒的社区，我在这里找到了许多编程答案。我有一个包含多个列的表，其中5个包含日期或null。我想编写一个本质上将5列合并为1列的sql查询，条件是如果5列中的1包含“N
jQuery 与 .hasClass() 相反？
我使用 hasClass() 在 if 语句中验证元素是否具有给定的类。如果元素没有给定的类，如何检查 if 语句？预先感谢您的回复。最佳答案为什么不简单地: if (!el.hasClass(
c++ - 与 const_cast 相反
我有一个 std::vector v我想防止进一步写入它。 C++ 编译器不接受这个 const std::vector& w = v; 但它接受这个 const std::vector& w = r
将数据帧重新排列到表格中，与 "melt"相反
这个问题已经有答案了: How to reshape data from long to wide format (14 个回答) 已关闭 7 年前。我有像这样的巨大数据框: SN = c(1:10
php - 将php代码转换为字符串，与eval()相反
如何将可调用(匿名函数)转换为字符串进行评估？我正在尝试在 phpunit 中编写使用 runkit 的单元测试覆盖方法。特别是，runkit_method_redefine() 需要一个字符串参数
Firebase pop() 与push() 相反？
我想实现一个堆栈(队列)，许多用户可以以 FILO 方式将其推送()，并且许多用户可以从中弹出()。是否有与 pop() 等效的方法来检索/删除列表的最后一项？例如: var popRef = f
protocols - 与无状态协议(protocol)相反？
我想知道“无状态协议(protocol)”的反面是什么。例如，鉴于 HTTP 是无状态的，那么像 FTP 这样的协议(protocol)是相反的/维护状态的协议(protocol)，我的假设是否正确？
PHP 与 array_filter 相反？
我对array_filter很熟悉，想往功能上想，但我想知道有没有办法保留被丢弃的值？例如，如果我有一个像这样的数组: 2; }); 结果将是:array( 3, 4 )。有没有办法保留丢弃的值
javascript - Javascript!==给出的结果与===相反
我已将色轮的图像加载到 Canvas 上，并且在数组中有一个色相值列表。我遍历 Canvas 上的每个像素，并删除匹配相同色相值的像素。该代码是: var element = document.ge
r - 与 dcast 相反
这个问题在这里已经有了答案: Repeat each row of data.frame the number of times specified in a column (10 个答案) 关闭
php - 将php代码转换为字符串，与eval()相反
如何将可调用(匿名函数)转换为字符串以进行评估？我正在尝试在使用 runkit 的 phpunit 中编写单元测试覆盖方法。特别是，runkit_method_redefine() 需要一个字符串参
PHP 与 array_filter 相反？
我对array_filter很熟悉，想往功能上想，但我想知道有没有办法保留被丢弃的值？例如，如果我有一个像这样的数组: 2; }); 结果将是:array( 3, 4 )。有没有办法保留丢弃的值
java - 字符串 .equals 相反
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 将 vector vector 转换为具有相反存储顺序的单个连续 vector 的更快方法