- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试使用 xtensor 在归约操作(例如元素总和)上获得与 NumPy 相同的性能。
我为并行计算启用了xsimd,但是没有效果。
以下为基准代码:
#include <iostream>
#include "xtensor/xreducer.hpp"
#include "xtensor/xrandom.hpp"
#include <ctime>
using namespace std;
pair<double, double> timeit(int size, int n=30){
double total_clocks = 0;
double total_sum = 0;
for (int i=0;i<n;i++){
xt::xtensor<double, 1> a = xt::random::rand({size}, 0., 1.);
int start = clock();
double s = xt::sum(a, xt::evaluation_strategy::immediate)();
int end = clock();
total_sum += s; total_clocks += end-start;
}
return pair<double, double>(total_clocks/CLOCKS_PER_SEC/n, total_sum);
}
int main(int argc, char *argv[])
{
for (int i=5;i<8;i++){
int size = pow(10, i);
pair<double, double> ret = timeit(size);
cout<<"size: "<<size<< " \t " <<ret.first<<" sec\t"<<ret.second<<endl;
}
return 0;
}
并在启用和不启用 xsimd 以及启用所有优化 (-O3) 的情况下进行编译:
$ g++ -DXTENSOR_USE_XSIMD -O3 -march=native -I/home/--user--/install_path/include "./18. test speed 2.cpp" -o a && ./a
size: 100000 0.0001456 sec 1.49984e+06
size: 1000000 0.0013149 sec 1.50002e+07
size: 10000000 0.0125417 sec 1.49995e+08
$ g++ -O3 -march=native -I/home/--user--/install_path/include "./18. test speed 2.cpp" -o a && ./a
size: 100000 0.0001433 sec 1.49984e+06
size: 1000000 0.0012621 sec 1.50002e+07
size: 10000000 0.0124868 sec 1.49995e+08
顺便说一下,使用numpy的相同操作:
$ python bench.py
size: 100000 0.000030 sec
size: 1000000 0.000430 sec
size: 10000000 0.005144 sec
大约快 4 倍!
设置
如何提高 xtensor 性能?提前致谢))
最佳答案
根据这个github issue我已经打开-mavx2
和 -ffast-math
标志应该启用!
$ g++ -mavx2 -ffast-math -DXTENSOR_USE_XSIMD -O3 -I/home/--user--/install_path/include ./bench.cpp -o a && ./a
size: 100000 3.489e-05 sec 4.99932e+06
size: 1000000 0.00050792 sec 4.99989e+07
size: 10000000 0.00544542 sec 4.99997e+08
感谢dengbangjie !
关于python - xtensor 和 xsimd : improve performance on reduction,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57442255/
我对流动的两种情况下变量 acc 的数据共享范围感到困惑。在情况 1 中,我收到以下编译错误:error: reduction variable ‘acc’ is private in outer c
我正在研究这个 Verilog 文件: `default_nettype none module stroboscope(i_clk, o_led); input wire i_clk
我正在为即将到来的 Haskell 考试复习,但我不明白过去论文中的一个问题。谷歌出现 nothing useful fst(x, y) = x square i = i * i i) Source
LEt x_t = F(x_{t-1}) 是 chaotic regime. 中的一个时间离散动力系统 从初始条件x_0开始,我们可以生成一个时间序列=x_t,其中t =1,2,...,T 表示时间索
我正在尝试使用 OpenMP 并行化 vector 点积程序。下面的代码显示了我所做的。 #define N 1000000 float dotProduct = 0; float vector1Ho
我有一个需要以下内容的项目。 代码中将声明四个数组,如下所示: var ROW1 = ['module1']; var ROW2 = ['module2', 'module3']; var ROW3
我是 opencl 的新手。我试过“获取数组中每个元素的所有立方体的总和”。这是我的内核代码: kernel void cubeSum(global float *input,
在 C99 规范中它说 remquo: The remquo functions are intended for implementing argument reductions which can
我正在关注'Learn Haskell Fast and Hard'我能够理解其中的大部分内容,但我对以下代码示例有两个问题。 在第一个函数中,为什么我不需要 l 但在第二个版本中我确实需要 l? 在
我需要更新数据框中的一些数据,就像 SQL 中的更新查询一样。我当前的代码如下: import pandas df = pandas.read_csv('filee.csv') # load trad
我有函数的当前版本: void* function(const Input_st *Data, Output_st *Image) { int i,j,r,Of
目前正在尝试使用 CUDA pdf 中的 Reduction #3 outline here . 这是我的 Reduction 函数的样子 template __device__ void offs
我正在尝试使用官方 CUDA 缩减 PDF 中讨论的缩减内核之一 here .但是,我不明白它是如何工作的,除非我遗漏了一些似乎没有多大意义的东西。 这是我的内核: __global__ void e
Please click this to see my problem 嗨。 关于这个问题,我只是看不懂它提供的解决方案。 我们知道 Atm 的补码 = { : M是TM,M不接受W}和照片中描述的
我已经看到各种讨论和代码尝试来解决 "String reduction"来自 interviewstreet.com 的问题,但没有一个是通过动态规划来解决的。 在 Dynamic Programmi
我正在尝试对 zip 迭代器进行最小缩减,但使用自定义运算符仅考虑元组中的第二个字段(第一个字段是键,而第二个字段是值)实际上与减少有关) 但是,我无法让它工作,目前正在计算 vector 中存在的结
这个问题在这里已经有了答案: OpenMP in C array reduction / parallelize the code (1 个回答) 关闭去年。 我正在尝试使用 #pragma omp
我有一种用 PLT-Redex 定义的语言,它具有(动态)mixin 类型。表达式如下所示: ; terms / expressions (e ::= x (lkp e f) (c
我正在研究代码 war 中的方向减少问题,但我无法弄清楚它给我带来的错误。我知道也有类似的情况,但是当我在 Visual Studio Code 上测试我的代码时,它工作得完美无缺,所以我不确定为什么
我用 C++ 和 CUDA 编写的 TensorFlow r1.5 操作的一部分涉及对张量的缩减。我已经实现了简单的交错缩减算法,如所述here .但是,似乎并没有减少整个缓冲区。 block 减少的
我是一名优秀的程序员,十分优秀!