python - xtensor 和 xsimd : improve performance on reduction-6ren

python - xtensor 和 xsimd : improve performance on reduction

转载作者：太空狗更新时间：2023-10-29 21:31:43

27

4

我正在尝试使用 xtensor 在归约操作(例如元素总和)上获得与 NumPy 相同的性能。

我为并行计算启用了xsimd，但是没有效果。

以下为基准代码:

#include <iostream>

#include "xtensor/xreducer.hpp"
#include "xtensor/xrandom.hpp"
#include <ctime>

using namespace std;


pair<double, double> timeit(int size, int n=30){
    double total_clocks = 0;
    double total_sum = 0;
    for (int i=0;i<n;i++){
        xt::xtensor<double, 1> a = xt::random::rand({size}, 0., 1.);
        int start = clock();

        double s = xt::sum(a, xt::evaluation_strategy::immediate)();

        int end = clock();
        total_sum += s; total_clocks += end-start;
    }
    return pair<double, double>(total_clocks/CLOCKS_PER_SEC/n, total_sum); 
}

int main(int argc, char *argv[])
{
    for (int i=5;i<8;i++){
        int size = pow(10, i);
        pair<double, double> ret = timeit(size);
        cout<<"size: "<<size<< " \t " <<ret.first<<" sec\t"<<ret.second<<endl;

    }
    return 0;
}

并在启用和不启用 xsimd 以及启用所有优化 (-O3) 的情况下进行编译:

$ g++ -DXTENSOR_USE_XSIMD -O3  -march=native -I/home/--user--/install_path/include "./18. test speed 2.cpp" -o a && ./a
size: 100000     0.0001456 sec     1.49984e+06
size: 1000000    0.0013149 sec     1.50002e+07
size: 10000000   0.0125417 sec     1.49995e+08

$ g++ -O3  -march=native -I/home/--user--/install_path/include "./18. test speed 2.cpp" -o a && ./a 
size: 100000     0.0001433 sec     1.49984e+06
size: 1000000    0.0012621 sec     1.50002e+07
size: 10000000   0.0124868 sec     1.49995e+08

顺便说一下，使用numpy的相同操作:

$ python bench.py
size: 100000     0.000030 sec
size: 1000000    0.000430 sec
size: 10000000   0.005144 sec

大约快 4 倍!

设置

Ubuntu 18.04
酷睿 i7 CPU
最新版本的包

如何提高 xtensor 性能？提前致谢))

最佳答案

根据这个github issue我已经打开
-mavx2 和 -ffast-math 标志应该启用!

$ g++ -mavx2 -ffast-math -DXTENSOR_USE_XSIMD -O3 -I/home/--user--/install_path/include ./bench.cpp -o a && ./a
size: 100000        3.489e-05 sec   4.99932e+06
size: 1000000       0.00050792 sec  4.99989e+07
size: 10000000      0.00544542 sec  4.99997e+08

感谢dengbangjie !

关于python - xtensor 和 xsimd : improve performance on reduction，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57442255/

27

4

0

文章推荐： python - numpy 将二维数组保存到文本文件

文章推荐： python - 从 numpy 数组中选择两个随机行

文章推荐： c# - 对 ValueTypes、Strings 和 ValueTypes 的 Nullable 的通用约束

文章推荐： python - 如何从我的 python 字典中删除\n？

c++ - 错误 : reduction variable is private in outer context (omp reduction)
我对流动的两种情况下变量 acc 的数据共享范围感到困惑。在情况 1 中，我收到以下编译错误:error: reduction variable ‘acc’ is private in outer c
Verilog -- "and reduction"& 占空比
我正在研究这个 Verilog 文件: `default_nettype none module stroboscope(i_clk, o_led); input wire i_clk
haskell "Source reduction"
我正在为即将到来的 Haskell 考试复习，但我不明白过去论文中的一个问题。谷歌出现 nothing useful fst(x, y) = x square i = i * i i) Source
MATLAB : Dimension reduction
LEt x_t = F(x_{t-1}) 是 chaotic regime. 中的一个时间离散动力系统从初始条件x_0开始，我们可以生成一个时间序列=x_t，其中t =1,2,...,T 表示时间索
c - openmp reduction 不提供与顺序方法相同的答案
我正在尝试使用 OpenMP 并行化 vector 点积程序。下面的代码显示了我所做的。 #define N 1000000 float dotProduct = 0; float vector1Ho
Javascript复杂数组 "element reduction"- 基于数组元素构建HTML表格
我有一个需要以下内容的项目。代码中将声明四个数组，如下所示: var ROW1 = ['module1']; var ROW2 = ['module2', 'module3']; var ROW3
c - Opencl Reduction 不符合预期
我是 opencl 的新手。我试过“获取数组中每个元素的所有立方体的总和”。这是我的内核代码: kernel void cubeSum(global float *input,
c - remquo : argument reduction?
在 C99 规范中它说 remquo: The remquo functions are intended for implementing argument reductions which can
haskell - 为什么即使在下面的示例中，n-reduction 也不适用于过滤器？
我正在关注'Learn Haskell Fast and Hard'我能够理解其中的大部分内容，但我对以下代码示例有两个问题。在第一个函数中，为什么我不需要 l 但在第二个版本中我确实需要 l？在
python - 尝试更新数据框时出现 Pandas Reduction 错误
我需要更新数据框中的一些数据，就像 SQL 中的更新查询一样。我当前的代码如下: import pandas df = pandas.read_csv('filee.csv') # load trad
c++ - 在嵌套循环中使用 OpenMP reduction 子句
我有函数的当前版本: void* function(const Input_st *Data, Output_st *Image) { int i,j,r,Of
c++ - “官方”CUDA Reduction 函数不能接受某些数字？
目前正在尝试使用 CUDA pdf 中的 Reduction #3 outline here . 这是我的 Reduction 函数的样子 template __device__ void offs
c++ - 为什么 CUDA Reduction 算法会跳过数组的整个部分？
我正在尝试使用官方 CUDA 缩减 PDF 中讨论的缩减内核之一 here .但是，我不明白它是如何工作的，除非我遗漏了一些似乎没有多大意义的东西。这是我的内核: __global__ void e
algorithm - 无法理解解决方案(Turing Machine & Reduction)
Please click this to see my problem 嗨。关于这个问题，我只是看不懂它提供的解决方案。我们知道 Atm 的补码 = { : M是TM，M不接受W}和照片中描述的
algorithm - 解决 "string reduction"挑战
我已经看到各种讨论和代码尝试来解决 "String reduction"来自 interviewstreet.com 的问题，但没有一个是通过动态规划来解决的。在 Dynamic Programmi
c++ - thrust::tuple in reduction 的自定义最小运算符
我正在尝试对 zip 迭代器进行最小缩减，但使用自定义运算符仅考虑元组中的第二个字段(第一个字段是键，而第二个字段是值)实际上与减少有关) 但是，我无法让它工作，目前正在计算 vector 中存在的结
c++ - openmp collapse with inner loop reduction
这个问题在这里已经有了答案: OpenMP in C array reduction / parallelize the code (1 个回答) 关闭去年。我正在尝试使用 #pragma omp
racket - Reduction-relation 的 in-hole 可能以多种不同的方式匹配一个孔
我有一种用 PLT-Redex 定义的语言，它具有(动态)mixin 类型。表达式如下所示: ; terms / expressions (e ::= x (lkp e f) (c
java - 无法找出 Kata Direction Reduction 问题错误
我正在研究代码 war 中的方向减少问题，但我无法弄清楚它给我带来的错误。我知道也有类似的情况，但是当我在 Visual Studio Code 上测试我的代码时，它工作得完美无缺，所以我不确定为什么
c++ - Tensorflow CUDA Reduction Op 没有完全减少
我用 C++ 和 CUDA 编写的 TensorFlow r1.5 操作的一部分涉及对张量的缩减。我已经实现了简单的交错缩减算法，如所述here .但是，似乎并没有减少整个缓冲区。 block 减少的

首页

博学

6Ren·AI

商城

python - xtensor 和 xsimd : improve performance on reduction