linux-kernel - 与 XDP_DROP/REDIRECT 相比，XDP

linux-kernel - 与 XDP_DROP/REDIRECT 相比，XDP_TX 的吞吐量较低

转载作者：行者123 更新时间：2023-12-05 06:03:16

28

4

我开发了一个 XDP 程序，它根据一些特定规则过滤数据包，然后丢弃它们 (XDP_DROP) 或将它们重定向 (xdp_redirect_map) 到另一个接口(interface)。该程序仅在四个 CPU 内核上就能够很好地处理约 11Mpps 的合成负载(这就是我的流量生成器的全部能力)。

现在我将该程序更改为使用 XDP_TX 在接收数据包的接口(interface)上发送数据包，而不是将它们重定向到另一个接口(interface)。不幸的是，这个简单的更改导致了吞吐量的大幅下降，现在它几乎无法处理 ~4Mpps。

我不明白，这可能是什么原因或如何进一步调试，这就是我在这里问的原因。

我重现问题的最小测试设置:

两台带有 Intel x520 SFP+ NIC 的机器直接相互连接，两个 NIC 配置为具有与机器的 CPU 内核一样多的“组合”队列。
机器 1 使用来自 linux 源的示例应用程序运行 pktgen:./pktgen_sample05_flow_per_thread.sh -i ens3 -s 64 -d 1.2.3.4 -t 4 -c 0 -v -m MACHINE2_MAC(4 个线程，因为这是产生最高生成 Mpps 的配置，即使机器有超过 4 个内核)
机器 2 运行 simple program丢弃(或反射)所有数据包并计算 pps。在那个程序中，我用 XDP_TX 替换了 XDP_DROP 返回代码。 - 我是否在反射(reflect)数据包之前交换 src/dest mac 地址不会导致吞吐量差异，所以我将其留在这里。

当使用 XDP_DROP 运行程序时，Machine 2 上的 4 个核心略微加载了 ksoftirqd 线程，同时下降了大约 11Mps。考虑到 pktgen 发出 4 个不同的数据包，由于 NIC 中的散列的工作方式，这些数据包仅填充 4 个 rx 队列，因此仅加载 4 个内核是有道理的。

但是当使用 XDP_TX 运行程序时，其中一个内核约 100% 忙于 ksoftirqd，并且仅处理了约 4Mpps。我不确定为什么会这样。

您是否知道可能导致这种吞吐量下降和 CPU 使用率增加的原因是什么？

编辑:这里有一些关于机器 2 配置的更多细节:

# ethtool -g ens2f0
Ring parameters for ens2f0:
Pre-set maximums:
RX:             4096
RX Mini:        n/a
RX Jumbo:       n/a
TX:             4096
Current hardware settings:
RX:             512   # changing rx/tx to 4096 didn't help
RX Mini:        n/a
RX Jumbo:       n/a
TX:             512

# ethtool -l ens2f0
Channel parameters for ens2f0:
Pre-set maximums:
RX:             n/a
TX:             n/a
Other:          1
Combined:       63
Current hardware settings:
RX:             n/a
TX:             n/a
Other:          1
Combined:       32

# ethtool -x ens2f0
RX flow hash indirection table for ens2f0 with 32 RX ring(s):
    0:      0     1     2     3     4     5     6     7
    8:      8     9    10    11    12    13    14    15
   16:      0     1     2     3     4     5     6     7
   24:      8     9    10    11    12    13    14    15
   32:      0     1     2     3     4     5     6     7
   40:      8     9    10    11    12    13    14    15
   48:      0     1     2     3     4     5     6     7
   56:      8     9    10    11    12    13    14    15
   64:      0     1     2     3     4     5     6     7
   72:      8     9    10    11    12    13    14    15
   80:      0     1     2     3     4     5     6     7
   88:      8     9    10    11    12    13    14    15
   96:      0     1     2     3     4     5     6     7
  104:      8     9    10    11    12    13    14    15
  112:      0     1     2     3     4     5     6     7
  120:      8     9    10    11    12    13    14    15
RSS hash key:
d7:81:b1:8c:68:05:a9:eb:f4:24:86:f6:28:14:7e:f5:49:4e:29:ce:c7:2e:47:a0:08:f1:e9:31:b3:e5:45:a6:c1:30:52:37:e9:98:2d:c1
RSS hash function:
    toeplitz: on
    xor: off
    crc32: off

# uname -a
Linux test-2 5.8.0-44-generic #50-Ubuntu SMP Tue Feb 9 06:29:41 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

编辑 2:我现在还尝试将 MoonGen 作为数据包生成器，并用 10Mpps 和 100 种不同的数据包变体(流)淹没机器 2。现在，当以最小的 CPU 负载丢弃所有这些数据包时，流量可以更好地分布在内核之间。但是 XDP_TX 仍然跟不上，在处理 ~3Mpps 时将单个内核加载到 100%。

最佳答案

我现在已经将Machine 2 的内核升级到5.12.0-rc3，问题消失了。看起来这是一个内核问题。

如果有人对此有更多了解或有关于此的变更日志，请告诉我。

关于linux-kernel - 与 XDP_DROP/REDIRECT 相比，XDP_TX 的吞吐量较低，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66694072/

28

4

0

文章推荐： angular - 如何更改 mat-icon 笔画宽度

文章推荐： optaplanner - 为什么 Joiners 类中没有 'notEqual' 方法？

haskell - .与haskell中的$相比
这个问题在这里已经有了答案: 11年前关闭。 Possible Duplicate: Haskell: difference between . (dot) and $ (dollar sign) 好
Java开发标准和工具(与C#相比)
我对 Java 平台没有任何了解，我想知道可以使用哪些工具(和方法)来帮助开发用 Java 编写的可维护代码。我知道可以使用: 适用于任何环境的敏捷方法用于单元测试代码的 jUnit/jMock(
css - 与IE10+相比，IE9不支持的所有CSS规则有没有聪明的方法？
我们的产品需要支持 IE9，但我们一直假设 IE9 支持 IE10+ CSS 规则。是否有一种巧妙的方法来获取在 IE10+ 中有效但在 IE9 中不受支持的所有 CSS 规则，目的是在静态代码分析
c++ - 重载 += 与 + 相比
我需要为 MyString 类重载运算符 + 和 +=。 MyString.h class MyString { char* m_pStr; }; 主要
java - 与 i++ 相比，执行强制转换操作的成本有多高？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - `ofstream` 与 0 相比
我正在升级现有的旧代码以使用 VS 2019*，在代码中我有以下函数在返回行失败: int foo(const char *fn) const { ofstream out(fn,ios::b
R2D3 与 D3.js 相比
我想使用 R2D3 pacakge 在 R 中，但我不确定这个包与 D3.js 库的关系。 R2D3 是否以任何方式限制 D3 的功能？我们可以将 R 中的所有 D3 功能和特性与 R2D3 一起使用
c# - 语音识别质量极差，尤其是与 Word 相比
我正在使用 WPF 语音识别库，试图在桌面应用程序中使用它来替代菜单命令。 (我想专注于没有键盘的平板电脑体验)。它可以工作 - 有点，除了识别的准确性太差以至于无法使用。所以我试着听写到 Word。
sql - SELECT FROM WHERE IN 与多个表上的 SELECT FROM 相比
我在学校参加数据库类(class)。老师给了我们一个简单的练习:考虑以下简单的模式: Table Book: Column title (primary key) Column gen
mvvm - MVVM 架构中的模型与 MVC 相比
我正在尝试学习 MVVM 模式，特别是当 View 表示数据库表时该怎么做，但 View 有几个元素表示单个数据库字段。举个简单的例子: 假设我有一个 DateTime 类型的数据库字段(每个数据库字
与具有几百万行的表上的 "<>"相比，SQL Server "="运算符非常慢
我有两张 table 。表单有约 77000 行。日志约有 270 万行。以下查询将在不到一秒的时间内返回“30198”: SELECT COUNT(DISTINCT logs.DOCID) FRO
R 中的回归(与 Eviews 相比)
当您在 Eviews 中进行回归时，您会得到一组这样的统计数据: 在 R 中有没有一种方法可以在一个列表中获得所有/大部分关于 R 回归的统计数据？最佳答案请参阅summary，它将为大多数回归对
dictionary - 与Go中的 map 相比，搜索无序数组要花多少个元素
如果我枚举 type XType int const ( X1 XType = iota X2 ... Xn ) var XTypeNames = []string{"x1", "x2
r - 与 randomForest 相比，游侠的错误预测
我正在试用 ranger R包加速做了很多randomForest计算。我正在检查我从中得到的预测，并注意到一些有趣的事情，因为所做的预测完全不正确。以下是比较 randomForest 的可重现示
clang - 与 GCC 相比，编译时间显着变慢
我发现 Clang 编译速度比 GCC 慢了四倍。知道是什么原因造成的吗？ ebg@tsuki(250)$ time /usr/bin/cc -DHC4 -DSAFETY -DNOREDUCE -DN
jquery - $.ajax 与 $.post 相比
我注意到在尝试以 JSON 格式发布表单数据时，以下内容不起作用: $.ajax({ type: "POST", url: url, data: JSON.string
c# - 与#if/#endif 相比，条件属性的缺点是什么？
我的代码库中有很多 #if DEBUG/#endif 语句，它们大多具有断言类型逻辑，我不敢在生产环境中运行这些逻辑。 [Conditional("DEBUG")] public void Check
c - 想知道何时使用 do while 循环与 while 相比(内部示例)
所以我正在开发一个平方根计算器，但我不知道 while 循环是否比 do while 循环更适合。 double x, y = 1.0, newY, squareRoot; bool
c# - 与另一个列表 LINQ 相比，检查一个列表中有哪些元素
我有两个列表，一个是所有语言，另一个是网站拥有的语言子集，我的想法是返回所有语言，但如果子集的元素对应于所有语言的列表，则更改 bool 值的属性. 语言的DTO: public class DTOL
c# - 与 winform 相比，来自控制台的过程
以下控制台应用程序运行正常 - 我很惊讶它没有出错。 class DelegateExperiments { //>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

首页

博学

6Ren·AI

商城

linux-kernel - 与 XDP_DROP/REDIRECT 相比，XDP_TX 的吞吐量较低