c++ - Linux 上的 memcpy 性能不佳-6ren

c++ - Linux 上的 memcpy 性能不佳

转载作者：IT老高更新时间：2023-10-28 12:10:22

我们最近购买了一些新服务器，但 memcpy 性能不佳。与我们的笔记本电脑相比，服务器上的 memcpy 性能要慢 3 倍。

服务器规范

机箱和主板:SUPER MICRO 1027GR-TRF

CPU:2x Intel Xeon E5-2680 @ 2.70 Ghz

内存:8x 16GB DDR3 1600MHz

编辑:我也在另一台规范稍高的服务器上进行测试，看到的结果与上述服务器相同

服务器 2 规范

机箱和主板:SUPER MICRO 10227GR-TRFT

CPU:2x Intel Xeon E5-2650 v2 @ 2.6 Ghz

内存:8x 16GB DDR3 1866MHz

笔记本电脑规范

机箱:联想W530

CPU:1x 英特尔酷睿 i7 i7-3720QM @ 2.6Ghz

内存:4x 4GB DDR3 1600MHz

操作系统

$ cat /etc/redhat-release
Scientific Linux release 6.5 (Carbon) 
$ uname -a                      
Linux r113 2.6.32-431.1.2.el6.x86_64 #1 SMP Thu Dec 12 13:59:19 CST 2013 x86_64 x86_64 x86_64 GNU/Linux

编译器(在所有系统上)

$ gcc --version
gcc (GCC) 4.6.1

还根据@stefan 的建议使用 gcc 4.8.2 进行了测试。编译器之间没有性能差异。

测试代码
下面的测试代码是一个固定测试，用于复制我在生产代码中看到的问题。我知道这个基准测试很简单，但它能够利用和识别我们的问题。该代码在它们之间创建了两个 1GB 缓冲区和 memcpy，为 memcpy 调用计时。您可以使用以下命令在命令行上指定备用缓冲区大小:./big_memcpy_test [SIZE_BYTES]

#include <chrono>
#include <cstring>
#include <iostream>
#include <cstdint>

class Timer
{
 public:
  Timer()
      : mStart(),
        mStop()
  {
    update();
  }

  void update()
  {
    mStart = std::chrono::high_resolution_clock::now();
    mStop  = mStart;
  }

  double elapsedMs()
  {
    mStop = std::chrono::high_resolution_clock::now();
    std::chrono::milliseconds elapsed_ms =
        std::chrono::duration_cast<std::chrono::milliseconds>(mStop - mStart);
    return elapsed_ms.count();
  }

 private:
  std::chrono::high_resolution_clock::time_point mStart;
  std::chrono::high_resolution_clock::time_point mStop;
};

std::string formatBytes(std::uint64_t bytes)
{
  static const int num_suffix = 5;
  static const char* suffix[num_suffix] = { "B", "KB", "MB", "GB", "TB" };
  double dbl_s_byte = bytes;
  int i = 0;
  for (; (int)(bytes / 1024.) > 0 && i < num_suffix;
       ++i, bytes /= 1024.)
  {
    dbl_s_byte = bytes / 1024.0;
  }

  const int buf_len = 64;
  char buf[buf_len];

  // use snprintf so there is no buffer overrun
  int res = snprintf(buf, buf_len,"%0.2f%s", dbl_s_byte, suffix[i]);

  // snprintf returns number of characters that would have been written if n had
  //       been sufficiently large, not counting the terminating null character.
  //       if an encoding error occurs, a negative number is returned.
  if (res >= 0)
  {
    return std::string(buf);
  }
  return std::string();
}

void doMemmove(void* pDest, const void* pSource, std::size_t sizeBytes)
{
  memmove(pDest, pSource, sizeBytes);
}

int main(int argc, char* argv[])
{
  std::uint64_t SIZE_BYTES = 1073741824; // 1GB

  if (argc > 1)
  {
    SIZE_BYTES = std::stoull(argv[1]);
    std::cout << "Using buffer size from command line: " << formatBytes(SIZE_BYTES)
              << std::endl;
  }
  else
  {
    std::cout << "To specify a custom buffer size: big_memcpy_test [SIZE_BYTES] \n"
              << "Using built in buffer size: " << formatBytes(SIZE_BYTES)
              << std::endl;
  }


  // big array to use for testing
  char* p_big_array = NULL;

  /////////////
  // malloc 
  {
    Timer timer;

    p_big_array = (char*)malloc(SIZE_BYTES * sizeof(char));
    if (p_big_array == NULL)
    {
      std::cerr << "ERROR: malloc of " << SIZE_BYTES << " returned NULL!"
                << std::endl;
      return 1;
    }

    std::cout << "malloc for " << formatBytes(SIZE_BYTES) << " took "
              << timer.elapsedMs() << "ms"
              << std::endl;
  }

  /////////////
  // memset
  {
    Timer timer;

    // set all data in p_big_array to 0
    memset(p_big_array, 0xF, SIZE_BYTES * sizeof(char));

    double elapsed_ms = timer.elapsedMs();
    std::cout << "memset for " << formatBytes(SIZE_BYTES) << " took "
              << elapsed_ms << "ms "
              << "(" << formatBytes(SIZE_BYTES / (elapsed_ms / 1.0e3)) << " bytes/sec)"
              << std::endl;
  }

  /////////////
  // memcpy 
  {
    char* p_dest_array = (char*)malloc(SIZE_BYTES);
    if (p_dest_array == NULL)
    {
      std::cerr << "ERROR: malloc of " << SIZE_BYTES << " for memcpy test"
                << " returned NULL!"
                << std::endl;
      return 1;
    }
    memset(p_dest_array, 0xF, SIZE_BYTES * sizeof(char));

    // time only the memcpy FROM p_big_array TO p_dest_array
    Timer timer;

    memcpy(p_dest_array, p_big_array, SIZE_BYTES * sizeof(char));

    double elapsed_ms = timer.elapsedMs();
    std::cout << "memcpy for " << formatBytes(SIZE_BYTES) << " took "
              << elapsed_ms << "ms "
              << "(" << formatBytes(SIZE_BYTES / (elapsed_ms / 1.0e3)) << " bytes/sec)"
              << std::endl;

    // cleanup p_dest_array
    free(p_dest_array);
    p_dest_array = NULL;
  }

  /////////////
  // memmove
  {
    char* p_dest_array = (char*)malloc(SIZE_BYTES);
    if (p_dest_array == NULL)
    {
      std::cerr << "ERROR: malloc of " << SIZE_BYTES << " for memmove test"
                << " returned NULL!"
                << std::endl;
      return 1;
    }
    memset(p_dest_array, 0xF, SIZE_BYTES * sizeof(char));

    // time only the memmove FROM p_big_array TO p_dest_array
    Timer timer;

    // memmove(p_dest_array, p_big_array, SIZE_BYTES * sizeof(char));
    doMemmove(p_dest_array, p_big_array, SIZE_BYTES * sizeof(char));

    double elapsed_ms = timer.elapsedMs();
    std::cout << "memmove for " << formatBytes(SIZE_BYTES) << " took "
              << elapsed_ms << "ms "
              << "(" << formatBytes(SIZE_BYTES / (elapsed_ms / 1.0e3)) << " bytes/sec)"
              << std::endl;

    // cleanup p_dest_array
    free(p_dest_array);
    p_dest_array = NULL;
  }


  // cleanup
  free(p_big_array);
  p_big_array = NULL;

  return 0;
}

要构建的 CMake 文件

project(big_memcpy_test)
cmake_minimum_required(VERSION 2.4.0)

include_directories(${CMAKE_CURRENT_SOURCE_DIR})

# create verbose makefiles that show each command line as it is issued
set( CMAKE_VERBOSE_MAKEFILE ON CACHE BOOL "Verbose" FORCE )
# release mode
set( CMAKE_BUILD_TYPE Release )
# grab in CXXFLAGS environment variable and append C++11 and -Wall options
set( CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -std=c++0x -Wall -march=native -mtune=native" )
message( INFO "CMAKE_CXX_FLAGS = ${CMAKE_CXX_FLAGS}" )

# sources to build
set(big_memcpy_test_SRCS
  main.cpp
)

# create an executable file named "big_memcpy_test" from
# the source files in the variable "big_memcpy_test_SRCS".
add_executable(big_memcpy_test ${big_memcpy_test_SRCS})

测试结果

Buffer Size: 1GB | malloc (ms) | memset (ms) | memcpy (ms) | NUMA nodes (numactl --hardware)
---------------------------------------------------------------------------------------------
Laptop 1         | 0           | 127         | 113         | 1
Laptop 2         | 0           | 180         | 120         | 1
Server 1         | 0           | 306         | 301         | 2
Server 2         | 0           | 352         | 325         | 2

正如您所看到的，我们服务器上的 memcpys 和 memset 比我们笔记本电脑上的 memcpys 和 memset 慢得多。

不同的缓冲区大小

我尝试过从 100MB 到 5GB 的缓冲区，结果都相似(服务器比笔记本电脑慢)

NUMA 亲和力

我读到有人在使用 NUMA 时遇到性能问题，因此我尝试使用 numactl 设置 CPU 和内存关联，但结果保持不变。

服务器 NUMA 硬件

$ numactl --hardware                                                            
available: 2 nodes (0-1)                                                                     
node 0 cpus: 0 1 2 3 4 5 6 7 16 17 18 19 20 21 22 23                                         
node 0 size: 65501 MB                                                                        
node 0 free: 62608 MB                                                                        
node 1 cpus: 8 9 10 11 12 13 14 15 24 25 26 27 28 29 30 31                                   
node 1 size: 65536 MB                                                                        
node 1 free: 63837 MB                                                                        
node distances:                                                                              
node   0   1                                                                                 
  0:  10  21                                                                                 
  1:  21  10

笔记本电脑 NUMA 硬件

$ numactl --hardware
available: 1 nodes (0)
node 0 cpus: 0 1 2 3 4 5 6 7
node 0 size: 16018 MB
node 0 free: 6622 MB
node distances:
node   0 
  0:  10

设置 NUMA 亲和力

$ numactl --cpunodebind=0 --membind=0 ./big_memcpy_test

非常感谢任何帮助解决此问题。

编辑:GCC 选项

根据评论，我尝试使用不同的 GCC 选项进行编译:

编译时将 -march 和 -mtune 设置为 native

g++ -std=c++0x -Wall -march=native -mtune=native -O3 -DNDEBUG -o big_memcpy_test main.cpp

结果:完全相同的性能(没有改进)

使用 -O2 而不是 -O3 编译

g++ -std=c++0x -Wall -march=native -mtune=native -O2 -DNDEBUG -o big_memcpy_test main.cpp

结果:完全相同的性能(没有改进)

编辑:将 memset 更改为写入 0xF 而不是 0 以避免 NULL 页面(@SteveCox)

使用 0 以外的值进行 memsetting 时没有改进(在这种情况下使用 0xF)。

编辑:Cachebench 结果

为了排除我的测试程序过于简单，我下载了一个真正的基准测试程序 LLCacheBench ( http://icl.cs.utk.edu/projects/llcbench/cachebench.html )

我分别在每台机器上构建了基准测试以避免架构问题。下面是我的结果。

laptop vs server memcpy performance

请注意，较大缓冲区大小的性能差异非常大。最后测试的大小 (16777216) 在笔记本电脑上以 18849.29 MB/秒的速度执行，在服务器上以 6710.40 的速度执行。这大约是性能的 3 倍差异。您还可以注意到服务器的性能下降比笔记本电脑上的要陡峭得多。

编辑:memmove() 比服务器上的 memcpy() 快 2 倍

基于一些实验，我尝试在我的测试用例中使用 memmove() 而不是 memcpy() 并发现服务器上的性能提高了 2 倍。笔记本电脑上的 Memmove() 运行速度比 memcpy() 慢，但奇怪的是，它的运行速度与服务器上的 memmove() 速度相同。这就引出了一个问题，为什么 memcpy 这么慢？

更新代码以测试 memmove 和 memcpy。我不得不将 memmove() 包装在一个函数中，因为如果我让它内联 GCC 优化它并执行与 memcpy() 完全相同的操作(我假设 gcc 将它优化为 memcpy，因为它知道位置没有重叠)。

更新结果

Buffer Size: 1GB | malloc (ms) | memset (ms) | memcpy (ms) | memmove() | NUMA nodes (numactl --hardware)
---------------------------------------------------------------------------------------------------------
Laptop 1         | 0           | 127         | 113         | 161       | 1
Laptop 2         | 0           | 180         | 120         | 160       | 1
Server 1         | 0           | 306         | 301         | 159       | 2
Server 2         | 0           | 352         | 325         | 159       | 2

编辑:Naive Memcpy

根据@Salgar 的建议，我实现了自己的天真的 memcpy 函数并对其进行了测试。

朴素的 Memcpy 源

void naiveMemcpy(void* pDest, const void* pSource, std::size_t sizeBytes)
{
  char* p_dest = (char*)pDest;
  const char* p_source = (const char*)pSource;
  for (std::size_t i = 0; i < sizeBytes; ++i)
  {
    *p_dest++ = *p_source++;
  }
}

与 memcpy() 相比的朴素 Memcpy 结果

Buffer Size: 1GB | memcpy (ms) | memmove(ms) | naiveMemcpy()
------------------------------------------------------------
Laptop 1         | 113         | 161         | 160
Server 1         | 301         | 159         | 159
Server 2         | 325         | 159         | 159

编辑:程序集输出

简单的memcpy源码

#include <cstring>
#include <cstdlib>

int main(int argc, char* argv[])
{
  size_t SIZE_BYTES = 1073741824; // 1GB

  char* p_big_array  = (char*)malloc(SIZE_BYTES * sizeof(char));
  char* p_dest_array = (char*)malloc(SIZE_BYTES * sizeof(char));

  memset(p_big_array,  0xA, SIZE_BYTES * sizeof(char));
  memset(p_dest_array, 0xF, SIZE_BYTES * sizeof(char));

  memcpy(p_dest_array, p_big_array, SIZE_BYTES * sizeof(char));

  free(p_dest_array);
  free(p_big_array);

  return 0;
}

组装输出:这在服务器和笔记本电脑上完全相同。我正在节省空间而不是同时粘贴两者。

        .file   "main_memcpy.cpp"
        .section        .text.startup,"ax",@progbits
        .p2align 4,,15
        .globl  main
        .type   main, @function
main:
.LFB25:
        .cfi_startproc
        pushq   %rbp
        .cfi_def_cfa_offset 16
        .cfi_offset 6, -16
        movl    $1073741824, %edi
        pushq   %rbx
        .cfi_def_cfa_offset 24
        .cfi_offset 3, -24
        subq    $8, %rsp
        .cfi_def_cfa_offset 32
        call    malloc
        movl    $1073741824, %edi
        movq    %rax, %rbx
        call    malloc
        movl    $1073741824, %edx
        movq    %rax, %rbp
        movl    $10, %esi
        movq    %rbx, %rdi
        call    memset
        movl    $1073741824, %edx
        movl    $15, %esi
        movq    %rbp, %rdi
        call    memset
        movl    $1073741824, %edx
        movq    %rbx, %rsi
        movq    %rbp, %rdi
        call    memcpy
        movq    %rbp, %rdi
        call    free
        movq    %rbx, %rdi
        call    free
        addq    $8, %rsp
        .cfi_def_cfa_offset 24
        xorl    %eax, %eax
        popq    %rbx
        .cfi_def_cfa_offset 16
        popq    %rbp
        .cfi_def_cfa_offset 8
        ret
        .cfi_endproc
.LFE25:
        .size   main, .-main
        .ident  "GCC: (GNU) 4.6.1"
        .section        .note.GNU-stack,"",@progbits

进步!!!! asmlib

根据@tbenson 的建议，我尝试使用 asmlib 运行memcpy 的版本。我的结果最初很差，但是在将 SetMemcpyCacheLimit() 更改为 1GB(我的缓冲区大小)后，我的运行速度与我的幼稚 for 循环相当!

坏消息是，memmove 的 asmlib 版本比 glibc 版本慢，它现在以 300 毫秒的速度运行(与 memcpy 的 glibc 版本相当)。奇怪的是，在笔记本电脑上，当我将 SetMemcpyCacheLimit() 设置为大量时，它会损害性能...

在下面的结果中，标有 SetCache 的行将 SetMemcpyCacheLimit 设置为 1073741824。没有 SetCache 的结果不调用 SetMemcpyCacheLimit()

使用 asmlib 函数的结果:

Buffer Size: 1GB  | memcpy (ms) | memmove(ms) | naiveMemcpy()
------------------------------------------------------------
Laptop            | 136         | 132         | 161
Laptop SetCache   | 182         | 137         | 161
Server 1          | 305         | 302         | 164
Server 1 SetCache | 162         | 303         | 164
Server 2          | 300         | 299         | 166
Server 2 SetCache | 166         | 301         | 166

开始倾向于缓存问题，但什么会导致这种情况？

最佳答案

[我会发表评论，但没有足够的声誉这样做。]

我有一个类似的系统并看到类似的结果，但可以添加一些数据点:

如果你扭转了你幼稚的方向memcpy (即转换为 *p_dest-- = *p_src-- )，那么您的性能可能比前向性能差得多(对我来说约为 637 毫秒)。 memcpy()发生了变化在 glibc 2.12 中暴露了几个调用 memcpy 的错误在重叠缓冲区( http://lwn.net/Articles/414467/ )上，我相信该问题是由切换到 memcpy 的版本引起的反向操作。因此，向后与向前拷贝可以解释 memcpy()/memmove()差距。

最好不要使用非临时存储。许多优化memcpy()对于大缓冲区(即大于最后一级缓存)，实现切换到非临时存储(未缓存)。我测试了 Agner Fog 的 memcpy 版本( http://www.agner.org/optimize/#asmlib )，发现它的速度与 glibc 中的版本大致相同。 .然而，asmlib有一个函数 ( SetMemcpyCacheLimit ) 允许设置使用非临时存储的阈值。将该限制设置为 8GiB(或仅大于 1GiB 缓冲区)以避免非临时存储在我的情况下性能翻倍(时间降至 176 毫秒)。当然，那只匹配了前向幼稚的表现，所以它并不出色。

这些系统上的 BIOS 允许启用/禁用四种不同的硬件预取器(MLC Streamer Prefetcher、MLC Spatial Prefetcher、DCU Streamer Prefetcher 和 DCU IP Prefetcher)。我尝试禁用每个设置，但这样做最多可以保持性能均衡并降低一些设置的性能。

禁用运行平均功率限制 (RAPL) DRAM 模式没有影响。

我可以访问其他运行 Fedora 19 (glibc 2.17) 的 Supermicro 系统。使用 Supermicro X9DRG-HF 主板、Fedora 19 和 Xeon E5-2670 CPU，我看到与上述类似的性能。在运行 Xeon E3-1275 v3 (Haswell) 和 Fedora 19 的 Supermicro X10SLM-F 单插槽板上，我看到 memcpy 为 9.6 GB/s (104 毫秒)。 Haswell 系统上的 RAM 为 DDR3-1600(与其他系统相同)。

更新

我将 CPU 电源管理设置为 Max Performance，并在 BIOS 中禁用了超线程。基于 /proc/cpuinfo ，然后内核的时钟频率为 3 GHz。然而，这奇怪地降低了大约 10% 的内存性能。

memtest86+ 4.10 报告主内存的带宽为 9091 MB/s。我找不到这是否对应于读取、写入或复制。

STREAM benchmark报告 13422 MB/s 的复制速度，但它们将读取和写入的字节数计为字节，因此如果我们想与上述结果进行比较，这对应于 ~6.5 GB/s。

关于c++ - Linux 上的 memcpy 性能不佳，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22793669/

文章推荐： PHP 认为 null 等于零

文章推荐： python - 使用 pip 的 libxml 安装错误

文章推荐： php - PHP foreach 中 "as $key => $value"和 "as $value"之间的区别

文章推荐： Python string.join(list) 对象数组而不是字符串数组

memcpy - memcpy 不安全吗？
这个问题在这里已经有了答案: 关闭 13 年前。重复: Memcpy() in secure programming? 根据“Please Join me in welcoming memcpy(
memcpy - memcpy 不安全吗？
这个问题在这里已经有了答案: 关闭 13 年前。重复: Memcpy() in secure programming? 根据“Please Join me in welcoming memcpy(
memcpy - strncpy/memcpy/memmove是逐字节还是以另一种有效方式复制数据？
众所周知，在x86 / x86_64之类的多字节字计算机中，逐字节地复制/移动大量内存(每步4或8个字节)要比逐字节地复制/移动更为有效。我很好奇strncpy / memcpy / memmove
c - memcpy--memcpy 后内核崩溃
我需要帮助，我正在尝试使用 memcpy 在内核空间复制 header ，但屏幕变黑，看起来它不喜欢我的 memcpy。请有人帮助我。 remaining = ntohs(iphead
c - 第二个 memcpy() 将之前的 memcpy() 数组附加到它
我在使用 memcpy() 时遇到了一点问题当我写这篇文章时 char ipA[15], ipB[15]; size_t b = 15; memcpy(ipA,line+15,b); 它从数组 li
c - 如果 memcpy 实际上不返回任何内容，如何以 memcpy 作为第一个参数调用 memset？
我正在尝试将一些 libc 代码移植到 Rust。具体来说，__tcgetattr()函数found in this file . 我只有一个部分遇到问题。 if (sizeof (cc_t) ==
c++ - 为什么调用 memcpy 到 bool 值后 memcpy 到 int 不起作用
我在玩 memcpy 时偶然发现了一个奇怪的结果，在 bool memcpy 之后对同一内存指针调用的 memcpy 给出了意想不到的结果。我创建了一个简单的测试结构，其中包含一堆不同类型的变量。我
c - Memcpy func 获取指针变量？字符*p；字符* q； memcpy(p,q,10);会起作用吗？
Memcpy 和 memcmp 函数可以接受指针变量吗？ char *p; char* q; memcpy(p,q,10); //will this work? memcmp(p,q,10); //w
c++ - 当从这个 memcpy 到子类中的新对象时，警告 "destination for this ' memcpy' call is a pointer to dynamic class ...”显示
我将创建一些具有虚拟复制功能的父类和子类，它返回自身的拷贝: class A{ public: int ID; virtual A* copy(){ retur
memcpy 可以用于类型双关吗？
这是引用自 C11 标准: 6.5 Expressions ... 6 The effective type of an object for an access to its stored valu
C memcpy 二维数组
我正在尝试使用 memcpy 将一个二维数组复制到另一个。我的代码: #include #include int print(int arr[][3], int n) { for (int
C memcpy 到结构分配
我编写了一个简单的程序来测试使用 memcpy 将字节从字节缓冲区复制到结构。但是我没有得到预期的结果。我分配了一个 100 字节的缓冲区，并将值设置为 0、1、2...99。然后我将这些字节复制到
c++ - memcpy 是否保留了琐碎对象的有效性？
如果有一个普通类型的有效对象(在这种情况下，普通类型满足普通移动/复制可构造的概念)，并且一个 memcpy 将它放到未初始化的内存区域，复制的内存区域是有效对象吗？我读到的假设:一个对象只有在它的
c++ - memcpy - 获取临时数组错误的地址
我正在研究 Arduino 并尝试更改数组的元素。在设置之前，我像这样初始化数组: bool updateArea[5] = { false }; 然后我想像这样更改数组: updateArea[0]
cuda - Memcpy 上未指定的启动失败
在 Cuda 中运行我的程序时遇到“未指定的启动失败”。我检查了错误。该程序是一个微分方程的求解器。它迭代 TOTAL_ITER 次。 ROOM_X 和 ROOM_Y 是矩阵的宽度和高度。这是标
c - memcpy 什么都不做
我试图将双缓冲放入我的 VGA dos 程序中，但是当我使用 memcpy 函数时似乎出现了问题。我确信我分配了所需的内存，但它似乎不起作用。程序如下: #include #include u
c - Memcpy() 适用于越界内存？
我一直认为 memcpy() 可以用于恶意目的。我做了几个测试应用程序，看看我是否可以从不同区域“窃取”内存中的数据。到目前为止，我已经测试了三个区域，堆、堆栈和常量(只读)内存。在我的测试中，常量内
不使用 memcpy() 复制字节
这是一项家庭作业。我想实现 memcpy()。有人告诉我内存区域不能重叠。其实我不明白那是什么意思，因为这段代码工作正常，但是有内存重叠的可能性。如何预防？ void *mem_copy(void *
c - memcpy 启动索引真的需要吗？
问题是，当我们使用 memcpy() 复制任何字节数组时，我们应该明确声明目标缓冲区的起始(第 0 个)索引，还是简单地提及它就足够了。让我展示我在说什么的例子。假设我们正在尝试将源缓冲区复制到目标缓
c memcpy 按值结构
我只是想将一个结构复制到另一个结构(按值复制，而不是按引用复制)。这是完整的工作代码 /* memcpy example */ #include #include #include #defin

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - Linux 上的 memcpy 性能不佳