gpt4 book ai didi

linux-kernel - kmalloc 的内存速度很慢

转载 作者:行者123 更新时间:2023-12-03 04:57:36 29 4
gpt4 key购买 nike

我们有一个应用程序需要大约 1MB 缓冲区来填充硬件设备,因此我们编写了一个使用 kmalloc() 分配缓冲区的内核模块。我们没有使用 dma_alloc_coherent(),因为我们需要操作缓冲区,因此希望它们被缓存(我们在需要时刷新缓存)。所完成的操作之一是将一个缓冲区复制到另一个缓冲区。在对这些复制进行计时时,我们发现复制缓冲区大约需要 2 毫秒。该时间不包括任何缓存刷新。

由于这看起来很慢,我们编写了一个标准用户空间测试应用程序,它使用 malloc() 创建 1MB 缓冲区并复制它们。用户空间副本大约花费了 0.5 毫秒,这大约是在我们正在使用的处理器/内存配置上移动此内存量的正确时间。

认为我们尝试过:为了确保内核空间和用户空间中的 memcpy() 不是不同的,我们编写了自己的 NEON 优化副本,但没有任何区别。将缓冲区大小从 100KB 更改为 10MB,没有任何区别。所有时间都超过 10 份,但总是非常非常一致。时间例程在用户空间中使用 gettimeofday()。

我们唯一能想到的是,kmalloc() 的内存和 malloc() 的内存的数据缓存设置不同???

我们正在开发 iMX6 ARM、Linaro 内核。

最佳答案

kmalloc() 内存在物理空间中将是连续的。用户空间肯定不会(mlock() 可能会导致更接近连续)。如果您有多个 SDRAM 芯片,您的内存 Controller 可能允许同时对不同芯片进行流水线多个问题读/写。如果有多家银行,速度可能会更快。 vmalloc() 不会使用连续的页面。 Ref 您应该能够编写一个测试来将 kmalloc()vmalloc() 交换。如果较新的 ARM 发生了某些变化并且缓存不是 VIVT ,物理地址的差异可能会对某些处理器造成缓存(别名?)影响。

我不认为内核内存和用户内存的缓存设置不同;至少有 2.6.34 变体;但它们可能来自不同的池。此外,对于 memcpy() 来说,不需要大的缓存;您只需要足够的容量来确保 SDRAM 会爆裂。

另一个问题是外围设备。例如,一个芯片上的大型图形缓冲区可能会通过 DMA 窃取周期。如果您可以更改机器文件设备表以禁用尽可能多的驱动程序,则可以消除这种情况。这与流水线相结合可以解释所观察到的减速类型。

我认为这是一个平台问题。如果严格来说是Linux,我想数百万用户之一可能已经遇到过它。但是,您还没有给出具体的 Linux 版本。这可能是基于 ARM 的问题;所以我这样标记它。我认为这是你的平台/ARM组合;只是因为其他人会观察到这一点。您还可以提供您的设计所基于的特定机器文件设备表以及Linux版本吗?

关于linux-kernel - kmalloc 的内存速度很慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13726323/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com