c - 在c中构建未知长度的大字符串-6ren

c - 在c中构建未知长度的大字符串

转载作者：太空宇宙更新时间：2023-11-04 06:00:38

24

4

我毫不怀疑在某个地方有这个问题的答案，我只是找不到它。

经过长时间的休息后，我刚刚回到 c 并且非常生疏，所以请原谅愚蠢的错误。我需要生成一个大的(可能相当于 10mb)字符串。我不知道要等多久才能建成。

我尝试了以下两种方法来测试速度:

int main() {
#if 1
  size_t message_len = 1; /* + 1 for terminating NULL */
  char *buffer = (char*) malloc(message_len);
  for (int i = 0; i < 200000; i++)
  {
    int size = snprintf(NULL, 0, "%d \n", i);
    char * a = malloc(size + 1);
    sprintf(a, "%d \n", i);

    message_len += 1 + strlen(a); /* 1 + for separator ';' */
    buffer = (char*) realloc(buffer, message_len);
    strncat(buffer, a, message_len);
  }
#else
  FILE *f = fopen("test", "w"); 
  if (f == NULL) return -1; 
  for (int i = 0; i < 200000; i++)
  {
    fprintf(f, "%d \n", i);
  }
  fclose(f);
  FILE *fp = fopen("test", "r");
  fseek(fp, 0, SEEK_END);
  long fsize = ftell(f);
  fseek(fp, 0, SEEK_SET);
  char *buffer = malloc(fsize + 1);
  fread(buffer, fsize, 1, f);
  fclose(fp);
  buffer[fsize] = 0;
#endif
  char substr[56];
  memcpy(substr, buffer, 56);
  printf("%s", substr);
  return 1;
}

第一个解决方案每次连接字符串耗时 3.8s，第二个解决方案写入文件然后读取耗时 0.02s。

肯定有一种不用读取和写入文件就可以用 c 语言构建大字符串的快速方法吗？我只是在做一些非常低效的事情吗？如果不能，我可以写入某种文件对象，然后在最后读取它并且永远不保存它吗？

在 C# 中，您会使用字符串缓冲区来避免缓慢的连接，在 C 中有什么等价物？

提前致谢。

最佳答案

这些行让你的生活变得相当艰难:

for (int i = 0; i < 200000; i++)
  {
    int size = snprintf(NULL, 0, "%d \n", i);  // << executed in first loop only
    char * a = malloc(size + 1);               // allocate enough space for "0 \n" + 1
    sprintf(a, "%d \n", i);                    // may try to squeeze "199999 \n" into a

    message_len += 1 + strlen(a); /* 1 + for separator ';' */
    buffer = (char*) realloc(buffer, message_len);
    strncat(buffer, a, message_len);
  }

您在第一次迭代中计算 size 并为 a 分配空间 - 然后在每个后续迭代中继续使用它(其中 i 得到更大，原则上您将超过为 a 分配的存储空间)。如果你正确地做到了这一点(在每个循环中为 a 分配大小)，你将不得不在每个循环中也free，否则会造成巨大的内存泄漏。

在 C 中，解决方案是预先分配大量内存 - 并且仅在紧急情况下重新分配。如果您“大致”知道您的字符串有多大，请立即分配所有内存；跟踪它有多大，如果用完就添加更多。最后，您始终可以“归还未使用的内容”。对 realloc 的多次调用不断移动内存(因为您通常没有足够的可用连续内存)。正如@Matt 在他的评论中澄清的那样:每次调用 realloc 都会移动整个内存块 确实存在风险 - 随着内存块变大，它会变成二次方增加系统的负载。这是一个可能更好的解决方案(完整的，用小 N 和 BLOCK 测试只是为了说明原理；你会想要使用大 N(你的值 200000)和更大的 BLOCK - 并摆脱 printf 在那里显示事情正在工作的语句):

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <time.h>

#define N 2000000 
#define BLOCK 32 
int main(void) {
size_t message_len = BLOCK; //
  char *buffer = (char*) malloc(message_len);
  int bb;
  int i, n=0;
  char* a = buffer;
  clock_t start, stop;
  for(bb = 1; bb < 128; bb *= 2) {
  int rCount = 0;
  start = clock();
  for (i = 0; i < N; i++)
  {
    a = buffer + n;
    n += sprintf(a, "%d \n", i);
    if ((message_len - n) < BLOCK*bb) {
      rCount++;
      message_len += BLOCK*bb;
      //printf("increasing buffer\n");
      //printf("increased buffer to %ld\n", (long int)message_len);
      buffer = realloc(buffer, message_len);
    }
  }
  stop = clock();
  printf("\nat the end, buffer length is %d; rCount = %d\n", strlen(buffer), rCount);
//  buffer = realloc(buffer, strlen(buffer+1));
  //printf("buffer is now: \n%s\n", buffer);
  printf("time taken with blocksize = %d: %.1f ms\n", BLOCK*bb, (stop - start) * 1000.0 / CLOCKS_PER_SEC);
  }
}

您需要为 BLOCK 使用一个相当大的值 - 这将限制对 realloc 的调用次数。我会使用 100000 之类的值；无论如何，你都摆脱了最后的空间。

编辑我修改了我发布的代码以允许循环计时 - 将 N 增加到 200 万以获得“合理时间”。我还最小化了初始内存分配(强制对 realloc 进行大量调用并修复了一个错误(当 realloc 必须移动内存时，a不再指向 buffer 中的偏移量。现在通过跟踪 n 中的字符串长度来解决这个问题。

这非常快 - 最小块为 450 毫秒，较大块(200 万个数字)下降到 350 毫秒。这与您的文件读/写操作相当(在我测量的分辨率范围内)。但是是的 - 文件 I/O 流和相关的内存管理是高度优化的......

关于c - 在c中构建未知长度的大字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19963263/

24

4

0

文章推荐： c - free() 导致段错误

文章推荐： python - glpk.LPX 向后兼容？

文章推荐： Python:在计算机之间发送大文件

文章推荐： ios - 为什么将我的 float 转换为整数会使数字变为负数？

python - 将键-长度-值 (KLV) 字符串拆分为键、长度、值的小列表
将 KLV 字符串拆分为键、长度、值作为元素的列表/元组的更有效方法是什么？为了添加一点背景，前 3 位数字作为键，接下来的 2 位表示值的长度。我已经能够使用以下代码解决该问题。但我不认为我的代
javascript - 上传前如何获取视频的元数据(长度)？
首先，我试图从文件中提取视频持续时间，然后在无需实际上传文件的情况下显示它。当用户选择视频时 - 信息将显示在其下方，包括文件名、文件大小、文件类型。不管我的技能多么糟糕 - 我无法显示持续时间。我
scala - 获取数组列的大小/长度
我是 Scala 编程新手，这是我的问题:如何计算每行的字符串数量？我的数据框由一列 Array[String] 类型组成。 friendsDF: org.apache.spark.sql.DataF
javascript - 查找上传到React应用程序的音频文件的持续时间/长度
我有一个React Web应用程序(create-react-app)，该应用程序使用react-hook-forms上传歌曲并使用axios将其发送到我的Node / express服务器。我想确
Java - 如何将网络掩码转换为位/长度
如果给你一个网络掩码(例如 255.255.255.0)，你如何在 Java 中获得它的长度/位(例如 8)？最佳答案如果您想找出整数低端有多少个零位，请尝试 Integer.numberOfTr
追加和删除点击时的 Jquery 长度
我需要使用 jQuery 获取 div 数量的长度。我可以得到它，但在两个单击事件中声明变量，但这似乎是错误的，然后我还需要使用它来根据数字显示隐藏按钮。我觉得我不必将代码加倍。在这里摆弄 htt
python散点图面积大小比例 Axis 长度
我对此感到非常绝望，到目前为止我在 www 上找不到任何东西。情况如下: 我正在使用 Python。我有 3 个数组:x 坐标、y 坐标和半径。我想使用给定的 x 和 y 坐标创建散点图。到目
jQuery:动态加载元素的大小/长度
我有一个表单，我通过 jQuery 的加载函数动态添加新的输入和选择元素。有时加载的元素故意为空，在这种情况下我想隐藏容器 div，这样它就不会破坏样式。问题是，我似乎无法计算加载的元素，因此不知道
jQuery 长度 > 0
我决定通过替换来使我的代码更清晰 if (wrappedSet.length > 0) 类似 if (wrappedSet.exists()) 是否有任何 native jq 函数可以实现此目的？或者
MySQL更改 key 长度
简单的问题。如果我有一个如下表: CREATE TABLE `exampletable` ( `id` int(11) NOT NULL AUTO_INCREMENT, `textfield`
mysql - 参数化查询中的数据类型/长度
我正在使用经典 ASP/MySQL 将长用户输入插入到我的数据库中，该输入是从富文本编辑器生成的。该列设置为 LONG-TEXT。作为参数化查询(准备语句)的新手，我不确定用于此特定查询的数据长度。
javascript - 如何在文本输入字段上设置自动宽度/长度？
我正在获取 Stripe 交易费用的值(value)并通过禁用的文本字段显示它。由于输入文本域，句子出现较大空隙 This is the amount $3.50____________that n
css - 背景大小包含 AND 长度
我有一个 div，其背景图像的大小设置为包含。但是，图像是视网膜计算机(Macbook Pro 等)的双分辨率图像，所以我希望能够以某种方式让页面知道即使我说的是背景大小:包含 200x200 图像，
javascript - 从dom中删除元素时如何更改计数器/长度
我正在开发一个具有“已保存”和“已完成”模块的小部件。当我删除元素时，它会从 dom 中删除/淡化它，但是当我将其标记为完成时，它会将其克隆到已完成的选项卡。这工作很棒，但顶部括号内的数字不适合我。这
android JSONArray 长度
我有一个来自 json 提要的数组，我知道在 jArray 中有一个联盟，但我需要计算出该数组的计数，以防稍后将第二个添加到提要中。目前 log cat 没有注销“teamFeedStructure”
嵌套列表的 Javascript 长度
目标:给定一个混合类型的数组，确定每个级别的元素数量。如果同一层有两个子数组，则它们的每个元素都计入该层元素的总数。方法: Array.prototype.elementsAtLevels = fu
java - 测量Java中单链表的大小/长度？
我需要帮助为 Java 中的单链表制作 int size(); 方法。这是我目前所拥有的，但它没有返回正确的列表大小。 public int size() { int size = 0;
Java DataInputStream 长度
我正在为学校作业创建一个文件服务器应用程序。我目前拥有的是一个简单的 Client 类，它通过 TCP 发送图像，还有一个 Server 类接收图像并将其写入文件。这是我的客户端代码 import
haskell - 理解(,)<$>长度<*>头部的类型
我有这对功能 (,) length :: Foldable t => t a -> b -> (Int, b) 和， head :: [a] -> a 我想了解的类型 (,) length he
github - 如何在Jekyll's Liquid模板中比较字符串大小/长度？
我正在GitHub Pages上使用Jekyll来构建博客，并希望获得传递给YAML前题中Liquid模板的page.title字符串的长度，该字符串在每个帖子的YAML主题中。我还没有找到一种简单的

首页

博学

6Ren·AI

商城

c - 在c中构建未知长度的大字符串