c - 为什么交错工作时 TCP 写入延迟更糟？-6ren

c - 为什么交错工作时 TCP 写入延迟更糟？

转载作者：可可西里更新时间：2023-11-01 02:30:04

我一直在分析 TCP 延迟(特别是从用户空间到内核空间的小消息的 write)，以便对 write (承认这可能是特定于上下文的)。我注意到在我看来很相似的测试之间存在很大的不一致，我很想知道差异从何而来。我知道微基准测试可能会有问题，但我仍然觉得我缺少一些基本的理解(因为延迟差异约为 10 倍)。

设置是我有一个 C++ TCP 服务器接受一个客户端连接(来自同一 CPU 上的另一个进程)，并在与客户端连接后进行 20 次系统调用以写入到套接字，一次发送一个字节。服务器的完整代码在本文末尾复制。这是使用 boost/timer 对每个 write 进行计时的输出(这增加了约 1 个麦克风的噪音):

 $ clang++ -std=c++11 -stdlib=libc++ tcpServerStove.cpp -O3; ./a.out
18 mics
3 mics
3 mics
4 mics
3 mics
3 mics
4 mics
3 mics
5 mics
3 mics
...
我可靠地发现第一个 write 比其他的要慢得多。如果我将 10,000 个 write 调用包装在一个计时器中，平均每次 write 需要 2 微秒，但第一个调用总是超过 15 个麦克风。为什么会出现这种“升温”现象？
相关地，我进行了一个实验，在每个 write 调用之间，我做了一些阻塞 CPU 的工作(计算一个大质数)。这会导致所有 write 调用变慢:
 $ clang++ -std=c++11 -stdlib=libc++ tcpServerStove.cpp -O3; ./a.out
20 mics
23 mics
23 mics
30 mics
23 mics
21 mics
21 mics
22 mics
22 mics
...
鉴于这些结果，我想知道在将字节从用户缓冲区复制到内核缓冲区的过程中是否发生了某种批处理。如果多个 write 调用快速连续发生，它们是否会合并为一个内核中断？
特别是我正在寻找关于write 将缓冲区从用户空间复制到内核空间需要多长时间的一些概念。如果有一些合并效应允许平均 write 在我连续执行 10,000 次时仅占用 2 个麦克风，那么得出 write 延迟为2个麦克风；看来我的直觉应该是每次write需要20微秒。对于您在没有内核绕过的情况下可以获得的最低延迟(对一个字节的原始 write 调用)来说，这似乎出奇地慢。
最后一个数据是，当我在计算机上的两个进程(一个 TCP 服务器和一个 TCP 客户端)之间设置乒乓测试时，我平均每次往返 6 个麦克风(其中包括一个 read ，写入，以及通过本地主机网络移动)。这似乎与上面看到的单次写入的 20 个麦克风延迟不一致。
TCP 服务器的完整代码:
 // Server side C/C++ program to demonstrate Socket programming
// #include <iostream>
#include <unistd.h>
#include <stdio.h>
#include <sys/socket.h>
#include <stdlib.h>
#include <netinet/in.h>
#include <netinet/tcp.h>
#include <string.h>
#include <boost/timer.hpp>
#include <unistd.h>

// Set up some blocking work.
bool isPrime(int n) {
    if (n < 2) {
        return false;
    }

    for (int i = 2; i < n; i++) {
        if (n % i == 0) {
            return false;
        }
    }

    return true;
}

// Compute the nth largest prime. Takes ~1 sec for n = 10,000
int getPrime(int n) {
    int numPrimes = 0;
    int i = 0;
    while (true) {
        if (isPrime(i)) {
            numPrimes++;
            if (numPrimes >= n) {
                return i;
            }
        }
        i++;
    }
}

int main(int argc, char const *argv[])
{
    int server_fd, new_socket, valread;
    struct sockaddr_in address;
    int opt = 1;
    int addrlen = sizeof(address);

    // Create socket for TCP server
    server_fd = socket(AF_INET, SOCK_STREAM, 0);

    // Prevent writes from being batched
    setsockopt(server_fd, SOL_SOCKET, TCP_NODELAY, &opt, sizeof(opt));
    setsockopt(server_fd, SOL_SOCKET, TCP_NOPUSH, &opt, sizeof(opt));
    setsockopt(server_fd, SOL_SOCKET, SO_SNDBUF, &opt, sizeof(opt));
    setsockopt(server_fd, SOL_SOCKET, SO_SNDLOWAT, &opt, sizeof(opt));

    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(8080);

    bind(server_fd, (struct sockaddr *)&address, sizeof(address));

    listen(server_fd, 3);

    // Accept one client connection
    new_socket = accept(server_fd, (struct sockaddr *)&address, (socklen_t*)&addrlen);

    char sendBuffer[1] = {0};
    int primes[20] = {0};
    // Make 20 sequential writes to kernel buffer.
    for (int i = 0; i < 20; i++) {
        sendBuffer[0] = i;
        boost::timer t;
        write(new_socket, sendBuffer, 1);
        printf("%d mics\n", int(1e6 * t.elapsed()));

        // For some reason, doing some blocking work between the writes
        // The following work slows down the writes by a factor of 10.
        // primes[i] = getPrime(10000 + i);
    }

    // Print a prime to make sure the compiler doesn't optimize
    // away the computations.
    printf("prime: %d\n", primes[8]);

}
TCP 客户端代码:
 // Server side C/C++ program to demonstrate Socket programming
// #include <iostream>
#include <unistd.h>
#include <stdio.h>
#include <sys/socket.h>
#include <stdlib.h>
#include <netinet/in.h>
#include <netinet/tcp.h>
#include <string.h>
#include <unistd.h>

int main(int argc, char const *argv[])
{
    int sock, valread;
    struct sockaddr_in address;
    int opt = 1;
    int addrlen = sizeof(address);

    // We'll be passing uint32's back and forth
    unsigned char recv_buffer[1024] = {0};

    // Create socket for TCP server
    sock = socket(AF_INET, SOCK_STREAM, 0);

    setsockopt(sock, SOL_SOCKET, TCP_NODELAY, &opt, sizeof(opt));

    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(8080);

    // Accept one client connection
    if (connect(sock, (struct sockaddr *)&address, (socklen_t)addrlen) != 0) {
        throw("connect failed");
    }

    read(sock, buffer_pointer, num_left);

    for (int i = 0; i < 10; i++) {
        printf("%d\n", recv_buffer[i]);
    }
}
我尝试使用和不使用标志 TCP_NODELAY、TCP_NOPUSH、SO_SNDBUF 和 SO_SNDLOWAT，我的想法是这可能会阻止批处理(但我的理解是这种批处理发生在内核缓冲区和网络之间，而不是在用户缓冲区和内核缓冲区之间)。
这是乒乓测试的服务器代码:
 // Server side C/C++ program to demonstrate Socket programming
// #include <iostream>
#include <unistd.h>
#include <stdio.h>
#include <sys/socket.h>
#include <stdlib.h>
#include <netinet/in.h>
#include <netinet/tcp.h>
#include <string.h>
#include <boost/timer.hpp>
#include <unistd.h>

 __inline__ uint64_t rdtsc(void)
   {
uint32_t lo, hi;
__asm__ __volatile__ (
        "xorl %%eax,%%eax \n        cpuid"
        ::: "%rax", "%rbx", "%rcx", "%rdx");
__asm__ __volatile__ ("rdtsc" : "=a" (lo), "=d" (hi));
return (uint64_t)hi << 32 | lo;
 }

// Big Endian (network order)
unsigned int fromBytes(unsigned char b[4]) {
    return b[3] | b[2]<<8 | b[1]<<16 | b[0]<<24;
}

void toBytes(unsigned int x, unsigned char (&b)[4]) {
    b[3] = x;
    b[2] = x>>8;
    b[1] = x>>16;
    b[0] = x>>24;
}

int main(int argc, char const *argv[])
{
    int server_fd, new_socket, valread;
    struct sockaddr_in address;
    int opt = 1;
    int addrlen = sizeof(address);
    unsigned char recv_buffer[4] = {0};
    unsigned char send_buffer[4] = {0};

    // Create socket for TCP server
    server_fd = socket(AF_INET, SOCK_STREAM, 0);

    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(8080);

    bind(server_fd, (struct sockaddr *)&address, sizeof(address));

    listen(server_fd, 3);

    // Accept one client connection
    new_socket = accept(server_fd, (struct sockaddr *)&address, (socklen_t*)&addrlen);
    printf("Connected with client!\n");

    int counter = 0;
    unsigned int x = 0;
    auto start = rdtsc();
    boost::timer t;

    int n = 10000;
    while (counter < n) {
        valread = read(new_socket, recv_buffer, 4);
        x = fromBytes(recv_buffer);
        toBytes(x+1, send_buffer);
        write(new_socket, send_buffer, 4);
        ++counter;
    }

    printf("%f clock cycles per round trip (rdtsc)\n",  (rdtsc() - start) / double(n));
    printf("%f mics per round trip (boost timer)\n", 1e6 * t.elapsed() / n);
}
这是乒乓测试的客户端代码:
 // #include <iostream>
#include <unistd.h>
#include <stdio.h>
#include <sys/socket.h>
#include <stdlib.h>
#include <netinet/in.h>
#include <netinet/tcp.h>
#include <string.h>
#include <boost/timer.hpp>
#include <unistd.h>

// Big Endian (network order)
unsigned int fromBytes(unsigned char b[4]) {
    return b[3] | b[2]<<8 | b[1]<<16 | b[0]<<24;
}

void toBytes(unsigned int x, unsigned char (&b)[4]) {
    b[3] = x;
    b[2] = x>>8;
    b[1] = x>>16;
    b[0] = x>>24;
}

int main(int argc, char const *argv[])
{
    int sock, valread;
    struct sockaddr_in address;
    int opt = 1;
    int addrlen = sizeof(address);

    // We'll be passing uint32's back and forth
    unsigned char recv_buffer[4] = {0};
    unsigned char send_buffer[4] = {0};

    // Create socket for TCP server
    sock = socket(AF_INET, SOCK_STREAM, 0);

    // Set TCP_NODELAY so that writes won't be batched
    setsockopt(sock, SOL_SOCKET, TCP_NODELAY, &opt, sizeof(opt));

    address.sin_family = AF_INET;
    address.sin_addr.s_addr = INADDR_ANY;
    address.sin_port = htons(8080);

    // Accept one client connection
    if (connect(sock, (struct sockaddr *)&address, (socklen_t)addrlen) != 0) {
        throw("connect failed");
    }

    unsigned int lastReceived = 0;
    while (true) {
        toBytes(++lastReceived, send_buffer);
        write(sock, send_buffer, 4);
        valread = read(sock, recv_buffer, 4);
        lastReceived = fromBytes(recv_buffer);
    }
}

 
  
   最佳答案  
  
  
  
  (不是一个完整的答案，但需要比评论更多的空间......)
  这听起来确实像 Nagle's algorithm ，或其变体，控制何时实际发送 TCP 数据包。
  对于第一次写入，当'pipe'中没有未确认的数据时，会立即发送，需要一点时间。对于之后不久的后续写入，管道中仍然会有未确认的数据，因此可以在发送缓冲区中排队少量数据，这样会更快。
  传输中断后，当所有发送都有机会 catch 时，管道将准备好立即再次发送。
  您可以使用 Wireshark 之类的工具查看实际的 TCP 数据包来确认这一点 - 这将显示 write() 请求是如何组合在一起的。
  公平地说，我希望 TCP_NODELAY 标志能够绕过这个 - 正如您所说，导致时间分布更均匀。如果您可以检查 TCP 数据包，还值得查看它们是否显示 PSH 标志集，以强制立即发送。
   
  
  
  关于c - 为什么交错工作时 TCP 写入延迟更糟？，我们在Stack Overflow上找到一个类似的问题：  https://stackoverflow.com/questions/52153265/

文章推荐： java - 协变结构因 Java 中的捕获错误而失败

文章推荐： javascript - getAttribute 无法在 IE7 中返回类？

文章推荐： javascript - 这段 javascript 的结果是什么？

tcp - ZMQ TCP 套接字与传统 TCP 有什么不同？
我是 ZMQ 的新手。我发现 ZMQ 套接字实现比 winsock 简单得多。但我怀疑 “使用 ZMQ TCP 套接字创建的客户端可以与传统的 TCP 服务器通信吗？” 换句话说我的 ZMQ 客户端可
tcp - 如何使 Logstash TCP 输入来分隔它在 TCP 端口上监听的消息？
我想使用 TCP 协议(protocol) 将数据发送到 Logstash。为了发送数据，我正在使用 Node-RED。一个简单的配置如下所示: 在 Logstash 文件夹中，我创建了一个名为 no
tcp - TCP 窗口缩放选项的动态设置
当我尝试更改窗口缩放选项时，作为 root，我可以通过在 /proc/sys/net/中执行 net.ipv4.tcp_mem=16777000 来更改值。如果我必须更改这 100 个系统，那将需要大
tcp - TCP 服务器所需的最少套接字端口数是多少？
明天做一些练习题，这道做不出来 TCP 服务器连接 TCP 客户端进行通信所需的最小套接字端口数是多少？肯定只有两个吧？一个用于服务器，一个用于客户端，但这似乎是显而易见的。我的伙伴们认为 TCP
tcp - TCP keepalive的典型用法是什么？
考虑一个存在一个服务器和多个客户端的场景。每个客户端创建 TCP 连接以与服务器交互。 TCP alive的三种用法: 服务器端保活:服务器发送 TCP 保活以确保客户端处于事件状态。如果客户端死了，
tcp - TCP TAHOE 和 TCP RENO 有什么区别
TCP TAHOE 和 TCP RENO 有什么区别。我想知道的是关于 3-dup-ack 和超时的行为？ SST 发生了什么变化？谢谢! 最佳答案 TCP Tahoe 和 Reno 是处理 TC
tcp - TCP 客户端服务器架构中的简单密码验证
大家早上好。我一直在阅读(其中大部分在堆栈溢出中)关于如何进行安全密码身份验证(散列 n 次，使用盐等)但我怀疑我将如何在我的 TCP 客户端中实际实现它-服务器架构。我已经实现并测试了我需要的方法
tcp - TCP 中的重复段
在遍历 RFC793 时,我开始知道应该以这种方式选择初始序列号段重叠被阻止。有人能解释一下如果发生重叠，重复段将如何影响 TCP？最佳答案不同的操作系统有不同的行为。参见 http://ins
tcp - tcp/ip中的Nagle算法
你能举例说明一下tcp/ip中nagle算法的概念吗？最佳答案我认为Wikipedia在开头的段落中做得很好。 Nagle's document, Congestion Control in IP
tcp - TCP 是否扩展到快速网络？
似乎最大 TCP 接收窗口大小为 1GB(使用缩放时)。因此，仍然可以用一个连接填充 100Gb 管道的最大 RTT 是 40ms(因为 2 * 40E-3 * 100E9/8 = 1GB)。这会将这
tcp - TCP 端点如何知道另一个端点是关闭了连接的两半还是只关闭了一个？
考虑在两个 TCP 端点之间建立的 TCP 连接，其中一个调用: 关闭():此处，不允许进一步读取或写入。关机(fd，SHUT_WR):这会将全双工连接转换为单工连接，其中调用 SHUT_WR 的端
tcp - TCP 选项的解析器
我是在 Lua 中编写解析器的新手，我有两个简短的问题。我有一个包含 TCP 选项的数据包，如 MSS、TCP SACK、时间戳、NOP、窗口比例、未知。我基本上是在尝试剖析 TCP 选项字段中的未知
tcp - TCP 校验和
TCP 是否不负责通过在传输过程中发生丢失等情况时采取任何可能必要的措施来确保通过网络完整地发送流？它做的不对吗？为什么更高的应用层协议(protocol)及其应用程序仍然执行校验和？最佳答案
tcp - TCP 连接段中的最大窗口大小是多少？
考虑使用 10 Mbps 链路的单个 TCP (Reno) 连接。假设此链路不缓冲数据并且接收方的接收缓冲区比拥塞窗口大得多。设每个 TCP 段的大小为 1500 字节，发送方和接收方之间连接的双向传
tcp - TCP 连接可以保持打开多长时间？
考虑这样一个场景，有client-a和server-b。 server-b 禁用了 TCP keepalive。 server-b 没有任何应用程序逻辑来检查 TCP 连接是否打开。 client-a
tcp - TCP 流中什么时候发生管道破裂？
我正在尝试用 Rust 编写回显服务器。 use std::net::{TcpStream, TcpListener}; use std::io::prelude::*; fn main() {
tcp - TCP 是否使用另一个端口发送数据？
听说对于TCP连接，服务器会监听一个端口，并使用另一个端口发送数据。例如，Web 服务器监听端口 80。每当客户端连接到它时，该服务器将使用另一个端口(比如 9999)向客户端发送数据(Web 内容
tcp - TCP 中推送标志和紧急标志之间的区别
我试图了解带有标记 PSH 和标记 URG 的 TCP 段之间的区别。我阅读了 RFC，但仍然无法理解，其中一个在将数据发送到进程之前缓冲数据而另一个没有吗？最佳答案它们是两种截然不同的机制。 #
javascript - 重用 TCP 客户端和 TCP 服务器之间打开的一个 TCP 连接
有第三方服务公开 TCP 服务器，我的 Node 服务器(TCP 客户端)应使用 tls Node 模块与其建立 TCP 连接。作为 TCP 客户端， Node 服务器同时也是 HTTP 服务器，它应
TCP SYN 和 TCP RST 的 TCP 序列和确认值
我正在发送一些 TCP SYN 数据包以获得 TCP RST 的返回。为了识别每个探测器，我在 TCP 序列字段中包含一个计数器。我注意到以下几点: 当SYN probe中的sequence numb

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 为什么交错工作时 TCP 写入延迟更糟？