- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
今天在写Pool Allocator的时候遇到了一个问题:
有可能打败编译器吗?
打败编译器我的意思是编写的代码比最简单的版本(堆栈上的分配变量,一个接一个)更快地执行内存分配(更少的时钟周期)。
所以我想出了一个非常简单的字节池:
template <size_t PoolSize>
class BytePool
{
public:
template <typename T>
T& At(size_t p_index)
{
return (T&)m_data[p_index * sizeof(T)];
}
private:
std::byte m_data[PoolSize];
};
这个简单的代码允许我在堆栈上分配一个字节数组一次并像访问 T
的数组一样访问它
为了操作这个数组,我做了一个宏:
#define is(type, slot) bytePool.At<type>(slot)
这个宏允许我写:#define a is (int, 0x0000)
比如a
是一个伪变量,它指向bytePool[ sizeof(int) * 0x0000]
.
使用这个宏,我做了一段简单的代码,用一些数字执行基本操作(有些在编译时定义,有些在运行时定义,比如b
和c
):
BytePool<sizeof(int) * 6> bytePool;
#define is(type, slot) bytePool.At<type>(slot)
#define a is (int, 0x0000)
#define b is (int, 0x0001)
#define c is (int, 0x0002)
#define d is (int, 0x0003)
#define e is (int, 0x0004)
#define f is (int, 0x0004)
a = 0;
b = (int)time(nullptr);
c = (int)__rdtsc();
d = 2 * b;
e = c - 3;
f = 18 ^ 2;
a = ~(b * c) * d + e / f;
#undef a
#undef b
#undef c
#undef d
#undef e
#undef f
有趣!这段代码看起来像是我手动为我的变量分配了内存槽。
不使用 ByteAllocator 的等价物是:
int a;
int b;
int c;
int d;
int e;
int f;
a = 0;
b = (int)time(nullptr);
c = (int)__rdtsc();
d = 2 * b;
e = c - 3;
f = 18 ^ 2;
a = ~(b * c) * d + e / f;
此时我问自己的问题是:
这些方法中哪一种更好?
当然,我确信分配一次内存会更快。所以我猜我的 BytePool 方法更快。
现在,让我们听听编译器的声音。我写了一些代码来进行基准测试:
#include <iostream>
#include <intrin.h>
#include <ctime>
template <size_t PoolSize>
class BytePool
{
public:
template <typename T>
T& At(size_t p_index)
{
return (T&)m_data[p_index * sizeof(T)];
}
private:
std::byte m_data[PoolSize];
};
void Stack()
{
int a;
int b;
int c;
int d;
int e;
int f;
a = 0;
b = (int)time(nullptr);
c = (int)__rdtsc();
d = 2 * b;
e = c - 3;
f = 18 ^ 2;
a = ~(b * c) * d + e / f;
}
void Pool()
{
BytePool<sizeof(int) * 6> bytePool;
#define is(type, slot) bytePool.At<type>(slot)
#define a is (int, 0x0000)
#define b is (int, 0x0001)
#define c is (int, 0x0002)
#define d is (int, 0x0003)
#define e is (int, 0x0004)
#define f is (int, 0x0004)
a = 0;
b = (int)time(nullptr);
c = (int)__rdtsc();
d = 2 * b;
e = c - 3;
f = 18 ^ 2;
a = ~(b * c) * d + e / f;
#undef a
#undef b
#undef c
#undef d
#undef e
#undef f
}
void FastPool()
{
int fastBytePool[6];
#define a *(fastBytePool)
#define b *(fastBytePool + 0x0001)
#define c *(fastBytePool + 0x0002)
#define d *(fastBytePool + 0x0003)
#define e *(fastBytePool + 0x0004)
#define f *(fastBytePool + 0x0005)
a = 0;
b = (int)time(nullptr);
c = (int)__rdtsc();
d = 2 * b;
e = c - 3;
f = 18 ^ 2;
a = ~(b * c) * d + e / f;
#undef a
#undef b
#undef c
#undef d
#undef e
#undef f
}
void FastHeapPool()
{
int* fastBytePool = new int[6];
#define a *(fastBytePool)
#define b *(fastBytePool + 0x0001)
#define c *(fastBytePool + 0x0002)
#define d *(fastBytePool + 0x0003)
#define e *(fastBytePool + 0x0004)
#define f *(fastBytePool + 0x0005)
a = 0;
b = (int)time(nullptr);
c = (int)__rdtsc();
d = 2 * b;
e = c - 3;
f = 18 ^ 2;
a = ~(b * c) * d + e / f;
#undef a
#undef b
#undef c
#undef d
#undef e
#undef f
delete[] fastBytePool;
}
size_t Benchmark(void (p_function)(), size_t p_iterations)
{
size_t cycleSum = 0;
for (size_t it = 0; it < p_iterations; ++it)
{
size_t startCycles = __rdtsc();
p_function();
cycleSum += __rdtsc() - startCycles;
}
return cycleSum / p_iterations;
}
int main()
{
const size_t iterations = 100000;
while (true)
{
std::cout << "Stack(): \t" << Benchmark(Stack, iterations) << "\tcycles\n";
std::cout << "Pool(): \t" << Benchmark(Pool, iterations) << "\tcycles\n";
std::cout << "FastPool(): \t" << Benchmark(FastPool, iterations) << "\tcycles\n";
std::cout << "FastHeapPool(): \t" << Benchmark(FastHeapPool, iterations) << "\tcycles\n";
std::cin.get();
system("CLS");
}
return 0;
}
这 4 个测试是:
这是使用 C++17 的 MSVC v142 的结果:
嗯...不是我所期望的!
那么现在,我的问题是:
是否有任何方法可以击败经典方法(堆栈上的 6 次分配),以及为什么分配 6 倍 int 的大小等于分配一次 6 int 的大小
我只谈内存,不谈操作优化
最佳答案
您的测试存在严重缺陷。 Stack()、Pool() 和 FastPool() 方法将归结为 NOP(它们不会做任何事情!!)。然而,new/delete 可能会产生副作用,因此这会导致发布性能差异。现在,您可能需要了解堆栈分配的实际作用了!如果在方法中使用堆栈分配的变量,它很可能是一个寄存器(除非它是具有副作用的非 pod 类型),并且无论你试图创建什么疯狂的概念来模仿内存,都将只是命令由于延迟、缓存未命中等原因,速度较慢。
过去,我们使用 register 关键字来区分堆栈分配的 var 和寄存器。不再了,因为它基本上没有意义。如今,堆栈分配仅在您用完寄存器时发生,并且您需要将寄存器值换出到堆栈空间。
关于c++ - 我们能打败编译器吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56963055/
我的问题由两部分组成。 我注意到使用 cc 编译器的 sparc(sun) 上的 memalign(block_size,bytes) 不检查字节是否为 2 的幂,这与使用 mvsc 编译器的 int
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
当我尝试在我的 gwt-maven Projekt 上进行 maven-install 时,我得到了这个错误: [ERROR] Failed to execute goal org.apache.ma
gcc 有一个选项 -s 来生成汇编源代码。 csc(MS C# 编译器)或 dmcs(mono C# 编译器)是否等价?我的意思是那些编译器是否提供了一个选项来生成可以读取而不是执行二进制文件的 I
我在 matlab simulink 中有一个模型。我把matlab安装在D盘了。当我运行模型时,出现以下错误: Unable to locate a C-compiler required by S
我非常喜欢 Visual Studio 2012,因为 GUI 非常快速和灵活。问题是我需要 VS2010 的 VC++-Compiler。在 VS 2012 中设置旧的编译器、SDK 有什么可能吗?
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我正在为类似 C 的语言开发编译器,但在语义分析和代码生成阶段遇到了一些困难。我的问题如下:1) 对于 if 语句,语法如下: if (expression) then statement1; sta
我想了解 php 编译器/解释器的工作原理。 我试图下载 php 源代码并试图了解它是如何工作的。我找不到合适的文档。如果有人可以阐明制作 php 编译器的模块以及 apache 服务器如何使用 ph
我有一些关于 python 的问题 为什么没有 python 编译器来创建本地代码?我找到了 py2exe 等,但它们只是随附了一个 python 解释器,因此,它又是执行代码的解释器。 是否无法创建
本文将是JVM 性能优化系列的第二篇文章(第一篇:传送门),Java 编译器将是本文讨论的核心内容。 本文中,作者(Eva Andreasson)首先介绍了不同种类的编译器,并对客户端编译,服务器
在 *nix 之类的系统或适当的工具包下是否有任何用于 ActionScript 3 的编译器来处理 Flash? 最佳答案 Flex SDK编译器 — mxmlc — 还将编译普通的 ActionS
我正在做一个C项目。但是其他人告诉我,由于没有C++编译器,所以无法构建它。 我不知道如何禁用C++的检测。这该怎么做? 最佳答案 检测C和C++工具链是CMake的默认行为。要禁用此行为,您需要手动
我正在寻找可以嵌入到我的程序中的 JIT 编译器或小型编译器库。我打算用它来编译动态生成的执行复数运算的代码。生成的代码在结构上非常简单:没有循环,没有条件,但它们可能很长(由 GCC 编译时只有几
多年来,我一直在 VB.NET 中使用 DEBUG 编译器常量将消息写入控制台。我也一直在以类似的方式使用 System.Diagnostics.Debug.Write。我一直认为,当 RELEASE
我了解编译器的前端和后端结构。但是,我不确定为什么编译器经常分为前端和后端。我相信有很多原因,你能给我几个吗?因为,大多数书籍/网站会告诉您它们是什么,但无法告诉您原因! 谢谢你。 最佳答案 前端处理
我有很多 JS 文件。其中一些相互依赖。其中许多依赖于 jQuery。我需要一种工具,它可以接受一个文件作为参数,传递地获取其所有依赖项,并以正确的顺序将它们编译成一个文件(基于依赖项) 依赖信息并不
我正在阅读著名的紫龙书第二版,但无法从第 65 页获取有关创建第一组的示例: 我们有以下语法(终端以粗体显示): stmt → expr; | if ( expr ) stmt | for ( opt
我正在寻找将 C# 语法编译为 native 代码(或者可能编译为 C++?)的选项。我对拥有正式成为该语言一部分的所有库不感兴趣,只是能够像编写 C++ 程序一样编写程序,但使用语言结构,例如部分类
编译器(例如:gcc)中的 -march 标志真的很重要吗? 如果我使用 -march=my_architecture 而不是 -march=i686 编译所有程序和内核,会不会更快 最佳答案 是的,
我是一名优秀的程序员,十分优秀!