network-programming - 即使 rte_eth_rx_burst 没有返回完整的突发，也会丢弃数据包-6ren

network-programming - 即使 rte_eth_rx_burst 没有返回完整的突发，也会丢弃数据包

转载作者：行者123 更新时间：2023-12-02 02:55:49

26

4

我有一个奇怪的掉落问题，要理解我的问题，最好的方法是看一下这个简单的片段:

while( 1 )
{
    if( config->running == false ) {
        break;
    }
    num_of_pkt = rte_eth_rx_burst( config->port_id,
                                   config->queue_idx,
                                   buffers,
                                   MAX_BURST_DEQ_SIZE);
    if( unlikely( num_of_pkt == MAX_BURST_DEQ_SIZE ) ) {
        rx_ring_full = true; //probably not the best name
    }

    if( likely( num_of_pkt > 0 ) )
    {
        pk_captured += num_of_pkt;

        num_of_enq_pkt = rte_ring_sp_enqueue_bulk(config->incoming_pkts_ring,
                                               (void*)buffers,
                                               num_of_pkt,
                                               &rx_ring_free_space);
        //if num_of_enq_pkt == 0 free the mbufs..
     }
}

这个循环正在从设备中检索数据包并将它们插入队列以供另一个 lcore 进一步处理。

当我使用 Mellanox 卡以 2.5M p/s 的速度发送 20M (20878300) 数据包进行测试时，环路似乎丢失了一些数据包并且 pk_captured 总是像 19M 或类似的。

rx_ring_full 永远不会为真，这意味着 num_of_pkt 总是 < MAX_BURST_DEQ_SIZE，因此根据文档，我不会在硬件级别出现掉线。此外，num_of_enq_pkt 永远不会为 0，这意味着所有数据包都已排队。

现在，如果我从那个片段中删除了 rte_ring_sp_enqueue_bulk 调用(并确保释放所有 mbuf)，那么 pk_captured 总是正好等于我发送到 NIC 的数据包数量。

所以看起来(但我无法处理这个想法)rte_ring_sp_enqueue_bulk 在某种程度上太慢了，在一次调用 rte_eth_rx_burst 和另一次调用之间，由于 NIC 上的完整环，一些数据包被丢弃，但是，为什么 num_of_pkt(来自 rte_eth_rx_burst)是总是小于 MAX_BURST_DEQ_SIZE(小得多)，好像总是有足够的空间容纳数据包？

注意，MAX_BURST_DEQ_SIZE 是 512。

编辑 1:

也许这些信息可能会有所帮助:丢弃似乎也可以通过 rte_eth_stats_get 看到，或者更正确地说，没有报告丢弃(imissed 和 ierrors 为 0)但是 ipackets 的值等于我的计数器 pk_captured(丢失的数据包就这么消失了？？)

编辑 2:

根据 ethtools，rx_crc_errors_phy 为零，并且所有数据包都在 PHY 级别接收(rx_packets_phy 使用正确数量的传输数据包进行更新)。

来自 rte_eth_stats 的 rx_nombuf 的值似乎包含垃圾(这是我们测试应用程序的打印):

OUT(4):端口 1 统计数据:ipkt:19439285,opkt:0,ierr:0,oerr:0,imiss:0, rxnobuf:2061021195718

对于 20M 数据包的传输，如您所见，rxnobuf 是垃圾或者它具有我不理解的含义。日志由以下人员生成:

  log("Port %"PRIu8" stats: ipkt:%"PRIu64",opkt:%"PRIu64",ierr:%"PRIu64",oerr:%"PRIu64",imiss:%"PRIu64", rxnobuf:%"PRIu64,
        config->port_id,
        stats.ipackets, stats.opackets,
        stats.ierrors, stats.oerrors,
        stats.imissed, stats.rx_nombuf);

统计数据来自 rte_eth_stats_get。

数据包不是即时生成的，而是从现有的 PCAP 重放的。

编辑3

在 Adriy 回答后(谢谢!)我已经包含了 Mellanox 卡的 xstats 输出，同时用较小的数据包集重现了同样的问题，我可以看到 rx_mbuf_allocation_errors 得到了更新，但它似乎包含垃圾:

OUT(4): rx_good_packets = 8094164
OUT(4): tx_good_packets = 0
OUT(4): rx_good_bytes = 4211543077
OUT(4): tx_good_bytes = 0
OUT(4): rx_missed_errors = 0
OUT(4): rx_errors = 0
OUT(4): tx_errors = 0
OUT(4): rx_mbuf_allocation_errors = 146536495542

那些计数器看起来也很有趣:

OUT(4): tx_errors_phy = 0
OUT(4): rx_out_of_buffer = 257156
OUT(4): tx_packets_phy = 9373
OUT(4): rx_packets_phy = 8351320

其中 rx_packets_phy 是我一直在发送的数据包的确切数量，并且将 rx_out_of_buffer 与 rx_good_packets 相加我得到了确切的数量。所以看起来 mbufs 耗尽了，一些数据包被丢弃了。

我对原始代码进行了调整，现在我正在使用 link 从 RX 环复制 mbuf。并且他们立即释放内存，进一步处理由另一个 lcore 对副本进行。可悲的是，这并没有解决问题，事实证明，要解决这个问题，我必须禁用数据包处理并释放数据包副本(在另一个 lcore 上)，这是没有意义的。

好吧，会做更多的调查，但至少 rx_mbuf_allocation_errors 似乎需要在这里修复。

最佳答案

我想，调试rx_nombuf 计数器是一种可行的方法。它可能看起来像垃圾，但实际上这个计数器并不反射(reflect)丢弃数据包的数量(如 ierrors 或 imissed do)，而是反射(reflect)失败的 RX 尝试次数。

这是来自 MLX5 PMD 的片段:

uint16_t
mlx5_rx_burst(void *dpdk_rxq, struct rte_mbuf **pkts, uint16_t pkts_n)
{
    [...]
    while (pkts_n) {
        [...]
        rep = rte_mbuf_raw_alloc(rxq->mp);
        if (unlikely(rep == NULL)) {
            ++rxq->stats.rx_nombuf;
            if (!pkt) {
                /*
                 * no buffers before we even started,
                 * bail out silently.
                 */
                break;

因此，该问题的合理场景如下:

RX队列中有数据包。
相应的内存池中没有缓冲区。
应用程序轮询新数据包，即循环调用:num_of_pkt = rte_eth_rx_burst(...)
每次调用 rte_eth_rx_burst() 时，rx_nombuf 计数器都会增加。

另请查看 rte_eth_xstats_get()。对于 MLX5 PMD，有一个硬件 rx_out_of_buffer 计数器，这可能会证实这一理论。

关于network-programming - 即使 rte_eth_rx_burst 没有返回完整的突发，也会丢弃数据包，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49474567/

26

4

0

文章推荐： java - 将只读字符串插入 jTextArea

JAVA技术实现上传下载文件到FTP服务器(完整)
具体详细介绍请看下文：在使用文件进行交互数据的应用来说，使用FTP服务器是一个很好的选择。本文使用Apache Jakarta Commons Net（commons-net-3.3.jar）
jetty HttpParser 完整
我在日志文件中收到这些警告: WARN 2013-01-15 00:08:15,550 org.eclipse.jetty.http.HttpParser- HttpParser Full for
javascript - 在浏览器中查看源代码时显示的源代码是否始终准确/完整？
我在使用特定网页时遇到问题。当我按下链接时，我收到应用程序错误(不是 http 错误等，而是应用程序级别错误)。但是我打开了开发人员工具和网络控制台，我看到没有请求发送到服务器。所以我双击并选择查
c - 此汇编函数调用是否安全/完整？
我没有组装经验，但这是我一直在做的。如果在通过程序集中的指针传递参数和调用函数时缺少任何基本方面，我希望输入。例如，我想知道是否应该还原ecx，edx，esi，edi，。我读到它们是通用寄存器，但我
c - 此汇编函数调用是否安全/完整？
我没有组装经验，但这是我一直在做的。如果在通过程序集中的指针传递参数和调用函数时缺少任何基本方面，我希望输入。例如，我想知道是否应该还原ecx，edx，esi，edi，。我读到它们是通用寄存器，但我
ios - 完整 UIScrollView 的快照
我正在尝试创建完整 uiscrollview 的快照，所有内容大小，我已经搜索了很多，并且我在 SO 上找到了一些东西，如下所示: Getting a screenshot of a UIScroll
java - 修改其副本时保持原始 Vector 完整
我想复制一个包含以下结构的Vector，对我来说重要的是在修改复制的 vector 时保持原始Vector完整: public class objet_poid_n { public int
python - 按分隔符分割时保持引用 block 完整
给定一个示例字符串 s = '嗨，我的名字是 Humpty-Dumpty，来自“爱丽丝，爱丽丝镜中奇遇记”'，我想将其分成以下 block : # To Do: something like {l =
bash - 寻找库来连接相对/完整 url。
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以
python - 完整 Linux 文件路径的正则表达式
我正在尝试创建一个正则表达式来查找文本中的 Linux 文件路径，但是正则表达式对我来说非常陌生。我有下面的代码片段，它将识别下面文件结构的开头。 .*(/bin/|/home/).* 完成正则表达式
php - 如何在不下载(完整)的情况下确定图像的大小？
我正在寻找远程托管的 JPG 的尺寸、宽度和高度。我已经了解了如何通过下载完整图像来执行此操作。但是，如果我可以通过仅下载足以获取此信息的方式来做到这一点，那将是理想的。典型的图像大小为 200K
Python:如何获取我所在函数的*完整*名称
有没有办法让下面的代码: import traceback def log(message): print "%s: %s" %(traceback.extract_stack()[0:-1]
c# - 完整 Windows 桌面的实时视频处理
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 3 年前。 Improve this qu
git - 仅显示修订中更改的(完整)文件名
git show 显示了修订版中所做的所有更改。但是，它会打印出所有更改——而不仅仅是文件名。 git show --stat 只显示文件名，但它把它们截断了!有没有办法获得已更改文件名的完整列表？
language-agnostic - 面向*完整*初学者的奖励代码项目
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
get_absolute_url 中的 Django 完整 url
当我在模板中调用我的模型 get_absolute_url 方法时，我想要一个绝对/完整的 url。在我的入门模型中，我有以下内容: def get_absolute_url(self): r
jquery - animate 的回调函数(完整)在开始时执行？
我正在使用 jQuery 1.5.1 这是我的代码: $('.cellcontent').animate({ left: '-=190'}, { easing: alert('start
javascript - 完整 d3 图表的故障/消失
我正在使用下面的方法删除条形图并使用新数据更新条形图，但这样做时出现了一个小故障/完整的图表消失 1 秒，直到加载新数据。但是是否可以通过仅增加/减少柱形而不实际消失图表来实现相同的目的。 d3.se
generics - 完整、高效的 NumericLiteral 模块实现
基于 this question 中的讨论，任何人都可以提供代码或代码链接，显示 NumericLiteralX 模块的完整实现(例如 this one )？我对 NumericLiteralX 模块
java - 检索正确(完整)的 html
我的目标是检索网站的 html，并将其转换为可读的String。我下面的代码可以工作，但我遇到了一个技术问题:当我尝试检索 http://time.gov/HTML5 的 html 时，我在 andr

首页

博学

6Ren·AI

商城

network-programming - 即使 rte_eth_rx_burst 没有返回完整的突发，也会丢弃数据包