- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个项目(代码 here ),在其中运行基准测试来比较计算点积的不同方法(Naive 方法、Eigen 库、SIMD 实现等)的性能。我正在新的 Centos 7.6 虚拟机上进行测试。我注意到,当我使用不同版本的 libstdc++.so.6
时,我获得了显着不同的性能。
当我启动新的 Centos 7.6 实例时,默认的 C++ 标准库是 libstdc++.so.6.0.19
。当我运行基准测试可执行文件(链接到此版本的 libstdc++
)时,输出如下:
Naive Implementation, 1000000 iterations: 1448.74 ns average time
Optimized Implementation, 1000000 iterations: 1094.2 ns average time
AVX2 implementation, 1000000 iterations: 1069.57 ns average time
Eigen Implementation, 1000000 iterations: 1027.21 ns average time
AVX & FMA implementation 1, 1000000 iterations: 1028.68 ns average time
AVX & FMA implementation 2, 1000000 iterations: 1021.26 ns average time
如果我下载 libstdc++.so.6.0.26
并更改符号链接(symbolic link) libstdc++.so.6
以指向这个较新的库并重新运行可执行文件(无需重新编译或更改其他任何内容),结果如下:
Naive Implementation, 1000000 iterations: 297.981 ns average time
Optimized Implementation, 1000000 iterations: 156.649 ns average time
AVX2 implementation, 1000000 iterations: 131.577 ns average time
Eigen Implementation, 1000000 iterations: 92.9909 ns average time
AVX & FMA implementation 1, 1000000 iterations: 78.136 ns average time
AVX & FMA implementation 2, 1000000 iterations: 80.0832 ns average time
为什么速度有如此显着的提高(某些实现快了 10 倍)?
由于我的用例,我可能需要链接到 libstdc++.so.6.0.19
。在使用旧版本的 libstdc++
时,我可以在代码中/在我这边做些什么来查看这些速度改进吗?
编辑:我创建了一个最小的可重现示例。
main.cpp
#include <iostream>
#include <vector>
#include <cstring>
#include <chrono>
#include <cmath>
#include <iostream>
typedef std::chrono::high_resolution_clock Clock;
const size_t SIZE_FLOAT = 512;
double computeDotProductOptomized(const std::vector<uint8_t>& v1, const std::vector<uint8_t>& v2);
void generateNormalizedData(std::vector<uint8_t>& v);
int main() {
// Seed for random number
srand (time(nullptr));
std::vector<uint8_t> v1;
std::vector<uint8_t> v2;
generateNormalizedData(v1);
generateNormalizedData(v2);
const size_t numIterations = 10000000;
double totalTime = 0.0;
for (size_t i = 0; i < numIterations; ++i) {
auto t1 = Clock::now();
auto similarity = computeDotProductOptomized(v1, v2);
auto t2 = Clock::now();
totalTime += std::chrono::duration_cast<std::chrono::nanoseconds>(t2 - t1).count();
}
std::cout << "Average Time Taken: " << totalTime / numIterations << '\n';
return 0;
}
double computeDotProductOptomized(const std::vector<uint8_t>& v1, const std::vector<uint8_t>& v2) {
const auto *x = reinterpret_cast<const float*>(v1.data());
const auto *y = reinterpret_cast<const float*>(v2.data());
double similarity = 0;
for (size_t i = 0; i < SIZE_FLOAT; ++i) {
similarity += *(x + i) * *(y + i);
}
return similarity;
}
void generateNormalizedData(std::vector<uint8_t>& v) {
std::vector<float> vFloat(SIZE_FLOAT);
v.resize(SIZE_FLOAT * sizeof(float));
for(float & i : vFloat) {
i = static_cast <float> (rand()) / static_cast <float> (RAND_MAX);
}
// Normalize the vector
float mod = 0.0;
for (float i : vFloat) {
mod += i * i;
}
float mag = std::sqrt(mod);
if (mag == 0) {
throw std::logic_error("The input vector is a zero vector");
}
for (float & i : vFloat) {
i /= mag;
}
memcpy(v.data(), vFloat.data(), v.size());
}
CMakeLists.txt
cmake_minimum_required(VERSION 3.14)
project(dot-prod-benchmark-min-reproducible-example C CXX)
set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -fPIC -Ofast -ffast-math -march=broadwell")
set(CMAKE_BUILD_TYPE Release)
set(CMAKE_CXX_STANDARD 14)
add_executable(benchmark main.cpp)
在centos-release-7-6.1810.2.el7.centos.x86_64
上编译,使用cmake版本3.16.2
,gcc (GCC) 7.3 .1 20180303
Intel(R) Xeon(R) Gold 6140 CPU @ 2.30GHz
,4 个 vCPU
使用libstdc++.so.6.0.19
:平均花费时间:1279.41使用libstdc++.20.6.0.26
:平均花费时间:168.219
最佳答案
rustyx是正确的。正是在循环中使用了 auto t1 = Clock::now();
导致了性能不佳。一旦我将计时移到循环之外(时间是花费的总时间),那么它们运行得同样快:
const size_t numIterations = 10000000;
auto t1 = Clock::now();
for (size_t i = 0; i < numIterations; ++i) {
auto similarity = computeDotProductOptomized(v1, v2);
}
auto t2 = Clock::now();
std::cout << "Total Time Taken: " << std::chrono::duration_cast<std::chrono::milliseconds>(t2 - t1).count() << " ms\n";
关于c++ - 为什么 C++ 可执行文件在与较新的 libstdc++.so 链接时运行速度如此之快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59570753/
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 此帖子已于 8 个月
除了调试之外,是否有任何针对 c、c++ 或 c# 的测试工具,其工作原理类似于将独立函数复制粘贴到某个文本框,然后在其他文本框中输入参数? 最佳答案 也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法,例如将分辨率加倍或输入负值,但它永远无法将窗口放在我的第二台显示器上。 关于如何在 C/C++/c# 中执行此操作的任何线索 最
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。 我正在尝试编写一个 C# 程序,它将使用 DES 算法进行加密和解密。我需要一些实
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
有没有办法强制将另一个 窗口置于顶部? 不是应用程序的窗口,而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
假设您可以在 C/C++ 或 Csharp 之间做出选择,并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例,那么构建套接字服务器应用程序的最明智选择是什么? 最佳答案 如
你们能告诉我它们之间的区别吗? 顺便问一下,有什么叫C++库或C库的吗? 最佳答案 C++ 标准库 和 C 标准库 是 C++ 和 C 标准定义的库,提供给 C++ 和 C 程序使用。那是那些词的共同
下面的测试代码,我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端 我想也许我应该使用
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码,但我不想与雇主共享该函数的代码。相反,我只想让他有权在他自己的代码中调用该函数。是否可以?我想到了这两种方法 - 在
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一些 C 代码,将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6
我是一名优秀的程序员,十分优秀!