- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 C++ 分配器的新手,花了一整天时间尝试构建自己的分配器。我以 A. Alecsandrescu Loki 分配器为垫脚石并遵循 this教程。最终,我制作了一个工作分配器并准备休息一下,结果发现这个自定义分配器比默认分配器慢得多。这是完整的代码:
#include <cstddef>
#include <iostream>
#include <vector>
#include <list>
#include <chrono>
#include <string>
using namespace std::chrono;
using uchar = unsigned char;
class Chunk
{
private:
friend class FixedAllocator;
void init(size_t blockSize, uchar blocks);
void release();
void* allocate(size_t blockSize);
void deallocate(void* p, size_t blockSize);
inline bool hasBlock(void* p, size_t chunkLen) const
{
uchar * pc = static_cast<uchar*>(p);
return (pData <= pc) && (pc <= (pData + chunkLen));
}
inline bool releasable(uchar numBlocks) const
{
return blocksAvailable == numBlocks;
}
uchar* pData;
uchar firstAvailableBlock, blocksAvailable;
};
void Chunk::init(size_t blockSize, uchar blocks)
{
// for n of Ts it will allocate n * sizeof(T) memory
pData = new uchar[blockSize * blocks];
firstAvailableBlock = 0;
blocksAvailable = blocks;
uchar i = 0;
uchar* p = pData;
// used by allocate method to move forward firstAvailableBlock
for (; i != blocks; p += blockSize)
{
*p = ++i;
}
}
void Chunk::release()
{
::operator delete(pData);
}
void* Chunk::allocate(size_t blockSize)
{
if (!blocksAvailable) return 0;
// move firstAvailableBlock one block ahead
uchar* pResult = pData + firstAvailableBlock * blockSize;
firstAvailableBlock = *pResult;
--blocksAvailable;
return pResult;
}
void Chunk::deallocate(void* p, size_t blockSize)
{
uchar* toRelease = static_cast<uchar*>(p);
// find last but one available block
firstAvailableBlock = static_cast<uchar>((toRelease - pData) / blockSize);
++blocksAvailable;
}
class FixedAllocator
{
private:
size_t blockSize;
uchar blocks;
using Chunks = std::vector<Chunk>;
Chunks chunks;
Chunk* allocChunk;
public:
FixedAllocator();
~FixedAllocator();
void init(size_t blockSize, size_t pageSize);
void * allocate();
void deallocate(void* p);
};
FixedAllocator::FixedAllocator():
blockSize(0),
blocks(0),
chunks(0),
allocChunk(nullptr)
{
}
FixedAllocator::~FixedAllocator()
{
Chunks::iterator it;
for (it = chunks.begin(); it != chunks.end(); ++it)
{
it->release();
}
}
void FixedAllocator::init(size_t blockSize_, size_t pageSize)
{
blockSize = blockSize_;
size_t numBlocks = pageSize / blockSize;
blocks = static_cast<uchar>(numBlocks);
}
void* FixedAllocator::allocate()
{
if (!allocChunk || allocChunk->blocksAvailable == 0)
{
Chunks::iterator it = chunks.begin();
for (;;++it)
{
if (it == chunks.end())
{
// allocate memory for one more chunk
chunks.reserve(chunks.size() + 1);
Chunk newChunk;
newChunk.init(blockSize, blocks);
// add new chunk to memory pool
chunks.push_back(newChunk);
// points to new just initiated chunk
allocChunk = &chunks.back();
break;
}
if (it->blocksAvailable > 0)
{
// points to chunk with available blocks
allocChunk = &*it;
break;
}
}
}
return allocChunk->allocate(blockSize);
}
void FixedAllocator::deallocate(void* p)
{
size_t chunkLen = blocks * blockSize;
Chunks::iterator it;
int cPos = 0;
for (it = chunks.begin(); it != chunks.end(); ++it, ++cPos)
{
if (it->hasBlock(p, chunkLen))
{
it->deallocate(p, blockSize);
if (it->releasable(blocks)) {
it->release();
chunks.erase(chunks.begin() + cPos);
// allocChunk may point to deleted chunk
// so, reset it
if (!chunks.empty()) {
allocChunk = &chunks.back();
} else {
allocChunk = nullptr;
}
} else {
// there are free blocks in chunk
// so, reset allocChunk for fast search
allocChunk = &*it;
}
break;
}
}
}
class SmallObjAllocator
{
public:
SmallObjAllocator(size_t pageSize, size_t maxObjectSize);
void* allocate(size_t numBytes);
void deallocate(void* p, size_t numBytes);
private:
FixedAllocator* pool;
size_t maxObjectSize;
};
SmallObjAllocator::SmallObjAllocator(size_t pageSize, size_t maxObjectSize_):
pool(nullptr),
maxObjectSize(maxObjectSize_)
{
pool = new FixedAllocator[maxObjectSize];
for (size_t i = 0; i < maxObjectSize; ++i)
{
pool[i].init(i + 1, pageSize);
}
}
void* SmallObjAllocator::allocate(size_t numBytes) {
if (numBytes > maxObjectSize)
{
return ::operator new(numBytes);
}
FixedAllocator& alloc = pool[numBytes-1];
return alloc.allocate();
}
void SmallObjAllocator::deallocate(void* p, size_t numBytes)
{
if (numBytes > maxObjectSize)
{
::operator delete(p);
return;
}
FixedAllocator& alloc = pool[numBytes-1];
alloc.deallocate(p);
}
template<typename T, size_t numBlocks = 64>
class Allocator
{
public:
Allocator(){};
template<typename U, size_t N>
Allocator(Allocator<U, N> const&);
template<typename U>
struct rebind
{
using other = Allocator<U, numBlocks>;
};
T* allocate(size_t cnt)
{
return reinterpret_cast<T*>(
allocator.allocate(sizeof(T) * cnt)
);
}
void deallocate(T* p, size_t cnt)
{
allocator.deallocate(p, sizeof(T) * cnt);
}
void construct(T* p, T const& val)
{
::new((void *)p) T(val);
}
void destroy(T* p)
{
return ((T*) p)->~T();
}
using value_type = T;
private:
static SmallObjAllocator allocator;
};
template<typename T, size_t numBlocks>
SmallObjAllocator Allocator<T, numBlocks>::allocator(numBlocks * sizeof(T), sizeof(T));
template<class List>
void test(std::string comment, List l)
{
std::cout << comment;
auto start_time = high_resolution_clock::now();
for (int i = 0; i < 10000; ++i)
{
l.push_back(i);
}
auto end_time = high_resolution_clock::now();
std::cout << duration_cast<milliseconds>(end_time - start_time).count() << "ms" << std::endl;
}
int main() {
test("default list ", std::list<int>());
test("list with custom allocator ", std::list<int, Allocator<int, 10000>>());
return 0;
}
如您所见,在我的客户端代码中,我进行了一些分析,此分析显示默认列表的填充时间为 0 毫秒,而带有自定义分配器的列表的填充时间为 3 毫秒。我认为整个问题出在 deallocate
方法上并将其注释掉,但仍然得到完全相同的图片。那么,这种性能下降的原因可能是什么?我错过了什么?
最佳答案
默认分配器( std::allocator )通常实现为围绕 new 的相对较薄的包装器和 delete .
您示例中的分配器似乎是一个混合 sub/bump(增量) 分配器。总而言之,如果分配器内存耗尽,它会从系统分配一 block 内存,然后从可用的 block 中 bump 分配。
除其他事项外,请考虑:
它手动管理所有地方的内存。即 Chunk
管理内存但没有析构函数,需要 Chunk::release
被要求摧毁它(即在 ~FixedAllocator()
).使用 RAII 避免手动内存管理(即使在编写分配器时) :
class Chunk
{
// private: not required, classes are private by default.
friend class FixedAllocator;
// Replaced init(...) with constructor.
Chunk(size_t blockSize, uchar block) :
pData(new uchar[blockSize * blocks]),
firstAvailableBlock(0),
blocksAvailable(blocks)
{
uchar* p = pData;
for (uchar i = 0; i != blocks; p += blockSize)
{
*p = ++i;
}
}
Chunk(const Chunk& other) = delete; // Disable copy construction.
Chunk(Chunk&& other) :
pData(std::move(other.pData)),
firstAvailableBlock(other.firstAvailableBlock),
blocksAvailable(other.blocksAvailable)
{
other.firstAvailableBlock = 0;
other.blocksAvailable = 0;
}
Chunk& operator=(const Chunk&& other) = delete; // Disable copy assignment.
Chunk& operator=(Chunk&& other)
{
pData = std::move(other.pData);
firstAvailableBlock = other.firstAvailableBlock;
blocksAvailable = other.blocksAvailable;
other.firstAvailableBlock = 0;
other.blocksAvailable = 0;
return *this;
}
//...
void release()
{
pData.reset();
}
//...
std::unique_ptr<uchar[]> pData; // Automatically deleted in the implicitly generated destructor.
uchar firstAvailableBlock, blocksAvailable;
};
// And of course don't forget to update chunk creation:
//...
Chunk newChunk(blockSize, blocks);
chunks.push_back(std::move(newChunk));
//...
Chunk::hasBlock
不考虑漏洞。如果您要分配 10 字节/5 字节/10 字节,则稍后释放 5 字节 block ,hasBlock
会返回 false
对于 5 字节 block 内的范围,即使该空间实际上是可用的。正确解决这个问题需要一个系统来跟踪分配。
它比较慢,因为它比典型的 std::allocator
做更多的整体工作实现。
小对象大小设置为sizeof(int)
,这很可能是 4。std::list
的大小节点至少为 12(后向指针(4-8),前向指针(4-8),对象(4+))。因此,至少对于列表节点,SmallObjAllocator::allocate()
和 SmallObjAllocator::deallocate()
不会调用new
或 delete
,而不是总是调用 FixedAllocator::allocate()
和 FixedAllocator::deallocate()
.
FixedAllocator::allocate()
和 FixedAllocator::deallocate()
很慢。它们都执行线性搜索,这在最坏的情况下意味着它们遍历所有 block 。即使在一般情况下,很多时间花在分配器上而不是你的程序上。优化这两个功能将产生最多的结果。
blockSize
您的分配器设置为 sizeof(int) * 10000
(大概 40k)。因此,10k 次插入 std::list<int>
至少需要 120kb( sizeof(node) * 10000
),所以很可能是 FixedAllocator
在您的示例中至少调整两次(假设调整大小策略加倍)。您可以通过设置 blockSize
来消除调整大小足够高,永远不需要调整大小。
Allocator<int, 100000>
(100k) 对于您的示例来说应该绰绰有余。
分配器是一个非常复杂的主题,老实说,有太多的细节需要详细说明如何在不写短篇小说的情况下完全解释如何优化您的示例。我建议阅读分配器设计并研究现实世界中使用的分配器,以更好地理解该主题。
参见:
关于c++ - 为什么我的自定义分配器比默认分配器慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48102916/
我有一个 map我需要插入和删除 Foo * 的地方.用法看起来像 map mapping; while( a long time) { // make ne
我想知道这是做什么的: std::basic_string, std::allocator>:: basic_string, std::allocator> (&myText, "hello worl
是否可以在 C++ 中创建一个像这样简单工作的自定义分配器: { // Limit memory to 1024 KB ScopedMemoryPool memoryPool(1024
我正在使用提到的 STL 分配器 here . 我所做的唯一更改是我从一个名为 Object 的基类继承,并且我使用基类的 new 和 delete 函数进行分配。 class MyAlloc
我有一段代码可以创建数千个对象,并将它们附加到一个 vector 中。下面的代码只是一个正在做的事情的例子,尽管构造函数有一些参数,而for实际上并没有那个条件,但它起到了表明它运行了数千次的目的。
这里有两个问题。首先,如果我需要在 Clone 之前创建 b2BlockAllocator 然后在克隆之后删除(在哪里?)? Xcode 分析工具未显示 C++ 泄漏... b2FixtureDef
我想创建一个不可复制的分配器(在 C++14 中),它只分配一个 std::vector 可以使用的固定内存块。我想防止分配器(以及 vector )被复制,以防止用户意外分配内存。分配器仅用于 st
我在 http://msdn.microsoft.com/en-us/library/ee292117.aspx 上看到和 http://msdn.microsoft.com/en-us/librar
我想用更健壮的分配器替换标准分配器(C++ 标准只需要对 vector::resize 进行溢出检查)。许多库提供的各种 C++ 分配器在进行负面 self 测试时会一败涂地。 我可以使用更强大的分配
我的 STL 容器中的内存使用预计是不稳定的——也就是说它会经常收缩和增长。我正在考虑通过为 STL 容器类型声明指定一个分配器来解决这个问题。我知道矿池分配器旨在处理这种情况,但我担心的是波动性将超
我有一个大量使用 STL 容器和字符串的大型(>250 个文件)库的源代码。我需要在有限堆的嵌入式环境中运行它,所以我想确保这个库本身的堆使用受到限制。 显而易见的解决方案是创建一个分配器,但修改整个
我想知道有一个符合 C++ 标准的库是否可行 allocator使用位于堆栈中的(固定大小的)缓冲区。 不知何故,这个问题似乎还没有在 SO 上这样问过,尽管它可能已经在其他地方得到了隐含的回答。 所
我观察到我的 MSVC10 副本附带的容器似乎允许基于状态的分配器,并编写了一个简单的池分配器,为特定类型分配池。 然而,我发现如果_ITERATOR_DEBUG_LEVEL != 0 MSVC 向量
据我所知,当 vector 空间不足时,分配器用于创建新空间。但是,我想创建一个自定义调整大小策略,该策略将移除底部 25% 的元素并始终保持相同的大小。这是为了构建一个空间有限的缓存。 有没有我可以
我目前正在尝试使用 Microsoft Visual Studio 2012 编译一个相当大的项目。我发现它在旧版本上编译得很好,但是对于这个版本,我在 std::list 的任何地方都会出错仅与一个
因此,在所提供代码的下一行,我有 IntelliSense 警告:“没有可用的成员”。怎么了?在正常情况下,似乎有选项,如“分配”、“解除分配”等。 namespace MyLib { tem
我正在尝试在 Microsoft visual studio 2013 on C++ 上编译为 linux 编写的程序。 声明 sdesc_t *ret = _malloc(sizeof(sdesc_
由于我工作的政策,我无法使用高于 1.33.1 的 Boost 版本,也无法使用高于 4.1.2 的 GCC 版本。是的,这是垃圾,但我对此无能为力。 Boost 1.33.1 不包含进程间库。 也就
我正在为 T 类型的数组实现资源分配克隆操作。直接的实现使用 new T[sz],然后是从源到新数组的 std::copy 调用。它遍历内存两次。 我想分配原始内存然后使用 std::uninitia
我们有一个库,它通过 extern "C" 提供 C 接口(interface),并从 C 代码中使用,但为了方便起见,它内部使用了 STL 容器和一些 C++ 功能,如 RAII。 现在有一个新的要
我是一名优秀的程序员,十分优秀!