java - 多线程降低了 NUMA 上的套接字吞吐量-6ren

java - 多线程降低了 NUMA 上的套接字吞吐量

转载作者：太空狗更新时间：2023-10-29 11:19:30

25

4

我在装有 Red Had Linux 的 16 核 NUMA 机器上对 Java 程序进行了基准测试。我根据每秒能够接收和发送多少数据包(64 字节大小)来测量 Java DatagramSocket(对于 UDP)的吞吐量。该程序由一个套接字和 n 个监听套接字的线程组成。当一个数据包到达时，他们会将有效负载复制到一个 byte[] 数组中，使用该数组创建一个新的 DatagramPacket 并将其直接发送回它的来源。将其视为 UDP 层上的 ping。

我发现 Java DatagramSocket 套接字在使用多个线程(即两个或四个)时实现的吞吐量要小得多。如果我只使用一个线程来监听套接字，我可以达到每秒 122,000 个数据包的吞吐量，而多个线程只能达到每秒 65,000 个数据包的吞吐量。现在，我了解到线程可能会在 NUMA 机器的任何核心上执行，并且如果内存必须从一个节点传输到另一个节点，内存访问就会变得昂贵。然而，如果我有两个线程，只有一个应该在“错误”的核心上执行，而另一个应该仍然达到非常高的吞吐量。另一种可能的解释是 Datagramsocket 中的同步问题，但这些只是猜测。有人对真正的解释是什么有很好的了解吗？
我发现在多个端口上多次(并行)执行此程序可以获得更高的整体吞吐量。我用一个线程启动程序四次，每个程序都在单独的端口(5683、5684、5685 和 5686)上使用一个套接字。四个程序的总吞吐量为每秒 370,000 个数据包。总而言之，在同一个端口上使用多个线程会降低吞吐量，而在多个端口上使用一个线程会增加吞吐量。这怎么解释？

系统规范:

硬件:2 个 AMD Opteron(TM) Processor 6212 处理器上有 16 个内核，分为 4 个节点，每个节点 32 GB RAM。频率:1.4 Ghz，2048 KB 缓存。

node distances:
node   0   1   2   3
  0:  10  16  16  16
  1:  16  10  16  16
  2:  16  16  10  16
  3:  16  16  16  10

操作系统是 Red Hat Enterprise Linux 工作站版本 6.4 (Santiago)，内核版本 2.6.32-358.14.1.el6.x86_64。 Java 版本 “1.7.0_09”，Java(TM) SE 运行时环境(build 1.7.0_09-b05)，Java HotSpot(TM) 64 位服务器 VM(build 23.5-b02, mixed mode) 我使用了 -XX:+UseNUMA 标志。服务器和客户端通过 10GB 以太网连接。

最佳答案

一般来说，只使用一个线程时效率最高。使东西平行将不可避免地引入成本。只有当您可以并行执行的额外工作量超过此成本时，吞吐量才会增加。

现在，Amdahl's law说明了吞吐量的理论增益与您的工作中有多少可以并行化/不能并行化有关。例如，如果只有 50% 的任务是可并行化的，那么无论在该问题上投入多少线程，吞吐量都只能增加 2 倍。请注意，您在链接中看到的图表忽略了添加线程的成本。实际上， native 操作系统线程确实增加了相当多的成本，尤其是。当他们中的很多人试图访问共享资源时。

在您的情况下，当您只使用一个套接字时，您的大部分工作都无法并行化。因此，使用单个线程可提供卓越的性能，而添加线程会使性能变得更糟，因为它们会增加成本。在您的第二个实验中，您通过使用多个套接字增加了可以并行化的工作。因此，尽管使用线程增加了一些成本，但您仍获得了吞吐量。

关于java - 多线程降低了 NUMA 上的套接字吞吐量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18975418/

25

4

0

文章推荐： linux - 如何向具有不同参数的远程节点发出并行命令？

文章推荐： ios - 更改 Apple 开发者资料的名称

文章推荐： javascript - blob 不接受 ios 上的 Uint8Array

文章推荐： python - apt-get 在 bash 脚本中没有按预期工作

numa - NUMA 会影响内存带宽，还是只会影响延迟？
我有一个内存带宽受限的问题——我需要从 RAM 中顺序读取大量(许多 GB)数据，进行一些快速处理并将其顺序写入 RAM 中的不同位置。内存延迟不是问题。在不同 NUMA 区域中的两个或多个内核之间
linux - linux 如何计算两个 numa 节点之间的 numa 距离(任何 numa 库的内部逻辑，例如 libnuma..etc )？
我试图通过 numa_distance() 和其他相关函数(来自第一个链接)，但无法理解。我只是想了解 linux 如何计算两个节点之间的 NUMA 距离，据说这个距离会根据架构和 NUMA 互连而变
cpu - 哪种架构称为非均匀内存访问(NUMA)？
根据wiki :非均匀内存访问 (NUMA) 是一种用于多处理的计算机内存设计，其中内存访问时间取决于相对于处理器的内存位置。但尚不清楚它是与包括缓存在内的任何内存有关还是仅与主内存有关。例如 X
python - NUMA 硬件上的内存分配和访问
我正在用 Python 开发一个科学计算工具，它应该能够在 NUMA 共享内存环境中的多个内核上分配工作。我正在研究最有效的方法。由于 python 的全局解释器锁，线程 - 不幸地 - 退出了游戏
windows - NUMA——本地内存
请耐心等待，我才刚刚开始深入研究整个 CPU 问题。下图中的RAM方 block ，它们指的是什么？内存页？据我所知，CPU 只有一件事与内存有关——它们的缓存。那么图中的RAM只是一个共享缓存，
C++ NUMA 优化
我正在开发一个最初为多核处理器系统开发的遗留应用程序。为了利用多核处理，已经使用了 OpenMP 和 PPL。现在一项新要求是在具有多个 NUMA 节点的系统上运行该软件。目标操作系统是 Window
linux - NUMA 在虚拟内存中是如何表示的？
有很多resources从硬件角度描述 NUMA 的架构和 performance implications编写支持 NUMA 的软件，但我还没有找到有关如何根据 NUMA 确定虚拟页面和物理框架之间
linux - NUMA 内存页面迁移开销
我必须找出在 Linux 下与 NUMA 内存页面迁移相关的开销。您能告诉我可以使用哪些工具吗？如果可能的话，你能举个例子吗。最佳答案如果您想了解您的系统是否正在执行过多的远程节点内存访问并且
在特定 NUMA 节点上创建命名共享内存？
类似于此post ，我想在特定的 NUMA 节点(不一定是本地)上创建一个命名的共享内存段(通过 shm_open() + mmap() 在 CentOS 7 上创建)。该帖子建议使用 numa_mo
linux - 我如何知道我的服务器是否有 NUMA？
从 Java 垃圾收集中跳出来，我遇到了 JVM settings for NUMA .奇怪的是，我想检查我的 CentOS 服务器是否具有 NUMA 功能。是否有 *ix 命令或实用程序可以获取此信
linux - NUMA 感知缓存对齐内存分配
在linux系统中，pthreads库为我们提供了缓存对齐的函数(posix_memalign)来防止错误共享。要选择架构的特定 NUMA 节点，我们可以使用 libnuma 库。我想要的是需要两者的
linux - NUMA 机器上的共享库瓶颈
我正在使用 NUMA 机器(SGI UV 1000)同时运行大量数值模拟，每个模拟都是一个使用 4 核的 OpenMP 作业。然而，运行超过 100 个这样的作业会导致性能显着下降。我们关于为什么会发
multithreading - NUMA 系统、虚拟页面和虚假共享
据我了解，对于 NUMA 系统的性能，有两种情况需要避免: 同一套接字中的线程写入同一高速缓存行(通常为 64 字节) 来自不同套接字的线程写入同一虚拟页面(通常为 4096 字节) 一个简单的例子会
c++ - 有没有办法为 NUMA 中的数据分配特定的内存？
我想以我可以控制的方式在 NUMA 内的所有节点内存之间分配内存(例如，在 node1 的内存中分配 a，在node2的内存中分配b，并在node4的内存中分配c…)。有什么办法可以实现这一点吗？
java - NUMA 系统上的 Spark
我正在考虑使用 Apache Spark 进行数据分析。过去，由于 NUMA 架构和对象在单个节点本地，我在 4 插槽服务器上遇到过 Java/Scala 速度变慢的情况。解决方案是为每个 NUMA
c++ - 如何控制哪个 numa 节点执行我的程序
我的服务器有 4 个 numa 节点，每个节点有 8 个带超线程的内核。所以我有 64 个逻辑 CPU。我有一些程序生成数据和其他程序使用数据。这些程序是用 c++ (11) 编写的。我想启动多个生
c++ - 创建一个指定要运行的 NUMA 节点的进程
如何在 C++ 中的特定 NUMA 节点上启动 Windows 中的进程？例如命令 start/NODE X 为节点 X 执行此操作。但是如何以编程方式实现相同的目的呢？最佳答案你可以传递一个
c - numa、mbind、段错误
我已经使用 valloc 分配了内存，比方说 [15*sizeof(double)] 的数组 A。现在我将它分成三部分，我想将每一部分(长度为 5)绑定(bind)到三个 NUMA 节点(比方说 0、
linux - 静态分配的大页面背后的内存如何跨 NUMA 节点分布？
在我的/etc/default/grub 文件中，我用“hugepages=N”明确地预留了 N 个大页面。如果我在一个有 2 个 NUMA 节点的盒子上运行，是为每个节点预留 N/2 个大页面，还是
c - 在 NUMA 架构中按线程移动内存页
我有两个问题: (i) 假设线程 X 在 CPU Y 上运行。是否可以使用系统调用 migrate_pages - 或者更好的 move_pages(或它们的 libnuma 包装器) - 将与 X

首页

博学

6Ren·AI

商城

java - 多线程降低了 NUMA 上的套接字吞吐量