linux - mmap:使用多线程时的性能-6ren

linux - mmap:使用多线程时的性能

转载作者：太空狗更新时间：2023-10-29 11:35:10

26

4

我有一个程序可以对很多文件(> 10 000)执行一些操作。它产生 N 个工作线程，每个线程映射一些文件，做一些工作并 munmaps 它。

我现在面临的问题是，每当我只使用 1 个进程和 N 个工作线程时，它的性能比生成 2 个进程(每个进程都有 N/2 个工作线程)的性能更差。我可以在 iotop 中看到这一点，因为 1 个进程 + N 个线程仅使用大约 75% 的磁盘带宽，而 2 个进程 + N/2 个线程使用全部带宽。

一些注意事项:

只有在我使用 mmap()/munmap() 时才会发生这种情况。我试图用 fopen()/fread() 替换它并且它工作得很好。但由于 mmap()/munmap() 带有第 3 方库，我想以其原始形式使用它。
madvise() 是用 MADV_SEQUENTIAL 调用的，但如果我删除它或更改 advise 参数，它似乎没有任何改变(或者只是减慢速度)。
线程亲和性似乎并不重要。我试图将每个线程限制为特定的核心。我还尝试将线程限制为核心对(超线程)。到目前为止没有结果。
即使在这两种情况下，htop 报告的负载似乎也相同。

所以我的问题是:

在多线程环境中使用 mmap() 时，有什么我不知道的吗？
如果是这样，为什么 2 个进程的性能更好？

编辑:

正如评论中所指出的，它在具有 2 个 CPU 的服务器上运行。我可能应该尝试设置线程亲和性，使其始终在同一个 CPU 上运行，但我想我已经尝试过了，但没有奏效。
这是一段代码，我可以用它重现与我的生产软件相同的问题。

#include <condition_variable>
#include <deque>
#include <filesystem>
#include <iostream>
#include <mutex>
#include <thread>
#include <vector>

#include <fcntl.h>
#include <sys/mman.h>
#include <unistd.h>

#ifndef WORKERS
#define WORKERS 16
#endif

bool stop = false;
std::mutex queue_mutex;
std::condition_variable queue_cv;

std::pair<const std::uint8_t*, std::size_t> map_file(const std::string& file_path)
{
    int fd = open(file_path.data(), O_RDONLY);
    if (fd != -1)
    {
        auto dir_ent = std::filesystem::directory_entry{file_path.data()};
        if (dir_ent.is_regular_file())
        {
            auto size = dir_ent.file_size();
            auto data = mmap(nullptr, size, PROT_READ, MAP_PRIVATE, fd, 0);
            madvise(data, size, MADV_SEQUENTIAL);
            close(fd);
            return { reinterpret_cast<const std::uint8_t*>(data), size };
        }

        close(fd);
    }

    return { nullptr, 0 };
}

void unmap_file(const std::uint8_t* data, std::size_t size)
{
    munmap((void*)data, size);
}

int main(int argc, char* argv[])
{
    std::deque<std::string> queue;

    std::vector<std::thread> threads;
    for (std::size_t i = 0; i < WORKERS; ++i)
    {
        threads.emplace_back(
            [&]() {
                std::string path;

                while (true)
                {
                    {
                        std::unique_lock<std::mutex> lock(queue_mutex);
                        while (!stop && queue.empty())
                            queue_cv.wait(lock);
                        if (stop && queue.empty())
                            return;
                        path = queue.front();
                        queue.pop_front();
                    }

                    auto [data, size] = map_file(path);
                    std::uint8_t b = 0;
                    for (auto itr = data; itr < data + size; ++itr)
                        b ^= *itr;
                    unmap_file(data, size);

                    std::cout << (int)b << std::endl;
                }
            }
        );
    }

    for (auto& p : std::filesystem::recursive_directory_iterator{argv[1]})
    {
        std::unique_lock<std::mutex> lock(queue_mutex);
        if (p.is_regular_file())
        {
            queue.push_back(p.path().native());
            queue_cv.notify_one();
        }
    }

    stop = true;
    queue_cv.notify_all();

    for (auto& t : threads)
        t.join();

    return 0;
}

最佳答案

Is there anything about mmap() I am not aware of when used in multithreaded environment?

是的。 mmap() 需要大量的虚拟内存操作 - 在某些地方有效地单线程处理您的进程。每this post from one Linus Torvalds:

... playing games with the virtual memory mapping is very expensive in itself. It has a number of quite real disadvantages that people tend to ignore because memory copying is seen as something very slow, and sometimes optimizing that copy away is seen as an obvious improvment.

Downsides to mmap:

quite noticeable setup and teardown costs. And I mean noticeable. It's things like following the page tables to unmap everything cleanly. It's the book-keeping for maintaining a list of all the mappings. It's The TLB flush needed after unmapping stuff.

page faulting is expensive. That's how the mapping gets populated, and it's quite slow.

请注意，上面的大部分内容也必须在整个机器上是单线程的，例如物理内存的实际映射。

因此映射文件所需的虚拟内存操作不仅代价高昂，而且实际上无法并行完成 - 内核必须跟踪的只有一大块实际物理内存，并且多个线程无法并行化更改进程的虚拟地址空间。

您几乎肯定会获得更好的性能，为每个文件重用内存缓冲区，其中每个缓冲区创建一次并且足够大以容纳读入其中的任何文件，然后使用低级 POSIX read() 调用。您可能想尝试使用页面对齐缓冲区并通过使用 O_DIRECT 标志(特定于 Linux)调用 open() 来使用直接 IO 来绕过页面缓存，因为您显然永远不要重新读取任何数据，任何缓存都是对内存和 CPU 周期的浪费。

重用缓冲区还完全消除了任何 munmap() 或 delete/free()。

不过，您必须管理缓冲区。也许用 N 个预先创建的缓冲区预填充队列，并在完成文件后将缓冲区返回到队列？

至于

If so, why do 2 processes have better performance?

使用两个进程将 mmap() 调用引起的进程特定的虚拟内存操作拆分为两个可并行运行的可分离集合。

关于linux - mmap:使用多线程时的性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55965430/

26

4

0

文章推荐： linux - 页面错误处理程序可以生成更多页面错误吗？

文章推荐： html - 不使用

标签是否可以实现类似

的效果？

文章推荐： HTML Favicon.ico 不会在 Google Chrome 上显示

文章推荐： linux - SED 命令无法正常运行

linux - 远程文本编辑 : Linux to Linux
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
linux - Linux 管道缓冲区有多少数据？ linux 管道缓冲区大小可以配置吗？
Linux 管道可以缓冲多少数据？这是可配置的吗？如果管道的两端在同一个进程中，但线程不同，这会有什么不同吗？请注意:这个“同一个进程，两个线程”的问题是理论上的边栏，真正的问题是关于缓冲的。最
linux - 用 Linux 启动 Linux？
我找到了here [最后一页] 一种有趣的通过 Linux 启动 Linux 的方法。不幸的是，它只是被提及，我在网上找不到任何有用的链接。那么有人听说过一种避免引导加载程序而使用 Linux 的方法
linux - linux 内核、linux 设备驱动程序或模块编写器程序员是否需要算法分析？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
linux - Linux ld-linux.so 的版本化符号
我试图了解 ld-linux.so 如何在 Linux 上解析对版本化符号的引用。我有以下文件: 测试.c: void f(); int main() { f(); } a.c 和 b.c:
linux - Linux 桌面应用程序可以用作 Linux 桌面吗？
与 RetroPie 的工作原理类似，我可以使用 Linux 应用程序作为我的桌面环境吗？我实际上并不需要像实际桌面和安装应用程序这样的东西。我只需要一种干净简单的方法来在 RaspberryPi 上
linux - linux 上用户和 linux 系统范围内的打开文件数是多少？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
linux - 亚马逊 Linux 与红帽 Linux
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
linux - 在 Linux (Linux mint) 中创建您自己的定制应用程序软件中心的最佳方法是什么？
有什么方法可以覆盖现有的源代码，我应该用 PyQt、PyGTK、Java 等从头开始构建吗？最佳答案如果您指的是软件本身而不是它所连接的存储库，那么自定义应用程序的方法就是 fork 项目。据我所
linux - 如何通过一个磁盘中的另一个 linux 系统更新一个 linux 系统？
我的情况是:我在一个磁盘上安装了两个 linux。我将第一个安装在/dev/sda1 中，然后在/dev/sda2 中安装第二个然后我运行第一个系统，我写了一个脚本来在第一个系统运行时更新它。
linux - 如何让 linux 驱动程序在 linux 内核加载后检测和使用设备？
我在 i2c-0 总线上使用地址为 0x3f 的系统监视器设备。该设备在设备树中配置有 pmbus 驱动程序。问题是，加载 linux 内核时，这个“Sysmon”设备没有供电。因此，当我在总线 0
linux - 在旧 Linux 版本中构建的应用程序可以在最新 Linux 中运行吗？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 11 年前。 Improve thi
linux - 将 linux 内核中的函数导出到 linux 模块
我正试图在 linux 模块中分配一大块内存，而 kalloc 做不到。我知道唯一的方法是使用 alloc_bootmem(unsigned long size) 但我只能从 linux 内核而不是
linux - 我如何连接到一个简单的 linux 控制台来执行一些任何人都可以使用 linux 操作系统的基本命令？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
linux - "pwd"命令适用于所有 linux 类型的 linux？
我有 .sh 文件来运行应用程序。在该文件中，我想动态设置服务器名称，而不是每次都配置。我尝试了以下方法，它在 CentOS 中运行良好。 nohup /voip/java/jdk1.8.0_71/
linux - 将 Linux 应用程序复制到另一个 Linux 操作系统
我是在 Linux 上开发嵌入式 C++ 程序的新手。我有我的 Debian 操作系统，我在其中开发和编译了我的 C++ 项目(一个简单的控制台进程)。我想将我的应用程序放到另一个 Debian 操
linux - 如何从 Linux 向 Linux 机器发送数据或文件？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
linux - 在 Linux 内核源代码树中哪里可以找到 Linux Logo ？
我使用4.19.78版本的稳定内核，我想找到带有企鹅二进制数据的C数组。系统启动时显示。我需要在哪里搜索该内容？我在 include/linux/linux_logo.h 文件中只找到了一些 Log
linux - 是否可以从非 linux 系统远程调试 linux 代码？
我知道可以使用 gdb 的服务器模式远程调试代码，我知道可以调试针对另一种架构交叉编译的代码，但是是否可以更进一步，从远程调试 Linux 应用程序OS X 使用 gdbserver？最佳答案当然
linux - 从一个 linux 到另一个 linux 的二进制文件
是否有任何可能的方法来运行在另一个 Linux 上编译的二进制文件？我知道当然最简单的是在另一台机器上重建它，但假设我们唯一能得到的是一个二进制文件，那么这可能与否？ (我知道这可能并不容易，但我只是

首页

博学

6Ren·AI

商城

linux - mmap:使用多线程时的性能