c - 从文件崩溃读取时使用 realloc 扩展缓冲区-6ren

c - 从文件崩溃读取时使用 realloc 扩展缓冲区

转载作者：太空狗更新时间：2023-10-29 14:57:55

24

4

我正在编写一些需要读取 fasta files 的代码，所以我的部分代码(包含在下面)是一个 fasta 解析器。由于单个序列可以跨越 fasta 格式的多行，因此我需要将从文件中读取的多个连续行连接成一个字符串。我这样做，通过在读取每一行后重新分配字符串缓冲区，使其成为序列的当前长度加上读入的行的长度。我做了一些其他的事情，比如剥离空白等。一切顺利第一个序列，但 fasta 文件可以包含多个序列。类似地，我有一个动态结构数组，其中包含两个字符串(标题和实际序列)，即“char *”。同样，当我遇到一个新标题(由以“>”开头的行引入)时，我增加序列的数量，并重新分配序列列表缓冲区。 realloc 在为第二个序列分配空间时出现段错误

*** glibc detected *** ./stackoverflow: malloc(): memory corruption: 0x09fd9210 ***
Aborted

对于我的生活，我不明白为什么。我已经通过 gdb 运行它并且一切似乎都在工作(即一切都已初始化，值似乎是正常的)......这是代码:

#include <stdio.h>
#include <string.h>
#include <stdlib.h>
#include <ctype.h>
#include <math.h>
#include <errno.h>

//a struture to keep a record of sequences read in from file, and their titles
typedef struct {
    char *title;
    char *sequence;
} sequence_rec;

//string convenience functions

//checks whether a string consists entirely of white space
int empty(const char *s) {
    int i;
    i = 0;
    while (s[i] != 0) {
        if (!isspace(s[i])) return 0;
        i++;
    }
    return 1;
}

//substr allocates and returns a new string which is a substring of s from i to
//j exclusive, where i < j; If i or j are negative they refer to distance from
//the end of the s
char *substr(const char *s, int i, int j) {
    char *ret;
    if (i < 0) i = strlen(s)-i;
    if (j < 0) j = strlen(s)-j;
    ret = malloc(j-i+1);
    strncpy(ret,s,j-i);
    return ret;
}

//strips white space from either end of the string
void strip(char **s) {
    int i, j, len;
    char *tmp = *s;
    len = strlen(*s);
    i = 0;
    while ((isspace(*(*s+i)))&&(i < len)) {
        i++;
    }
    j = strlen(*s)-1;
    while ((isspace(*(*s+j)))&&(j > 0)) {
        j--;
    }
    *s = strndup(*s+i, j-i);
    free(tmp);
}


int main(int argc, char**argv) {
    sequence_rec *sequences = NULL;
    FILE *f = NULL;
    char *line = NULL;
    size_t linelen;
    int rcount;
    int numsequences = 0;

    f = fopen(argv[1], "r");
    if (f == NULL) {
        fprintf(stderr, "Error opening %s: %s\n", argv[1], strerror(errno));
        return EXIT_FAILURE;
    }
    rcount = getline(&line, &linelen, f);
    while (rcount != -1) {
        while (empty(line)) rcount = getline(&line, &linelen, f);
        if (line[0] != '>') {
            fprintf(stderr,"Sequence input not in valid fasta format\n");
            return EXIT_FAILURE;
        }

        numsequences++;
        sequences = realloc(sequences,sizeof(sequence_rec)*numsequences);
        sequences[numsequences-1].title = strdup(line+1); strip(&sequences[numsequences-1].title);
        rcount = getline(&line, &linelen, f);
        sequences[numsequences-1].sequence = malloc(1); sequences[numsequences-1].sequence[0] = 0;
        while ((!empty(line))&&(line[0] != '>')) {
            strip(&line);
            sequences[numsequences-1].sequence = realloc(sequences[numsequences-1].sequence, strlen(sequences[numsequences-1].sequence)+strlen(line)+1);
            strcat(sequences[numsequences-1].sequence,line);
            rcount = getline(&line, &linelen, f);
        }
    }
    return EXIT_SUCCESS;
}

最佳答案

你应该使用看起来像这样的字符串:

struct string {
    int len;
    char *ptr;
};

这可以防止 strncpy 错误，就像您看到的那样，并允许您更快地执行 strcat 和 friend 。

您还应该为每个字符串使用一个双数组。这可以防止过多的分配和 memcpys。像这样:

int sstrcat(struct string *a, struct string *b)
{
    int len = a->len + b->len;
    int alen = a->len;
    if (a->len < len) {
        while (a->len < len) {
            a->len *= 2;
        }
        a->ptr = realloc(a->ptr, a->len);
        if (a->ptr == NULL) {
            return ENOMEM;
        }
    }
    memcpy(&a->ptr[alen], b->ptr, b->len);
    return 0;
}

我现在看到你在做生物信息学，这意味着你可能需要比我想象的更多的性能。您应该改用这样的字符串:

struct string {
    int len;
    char ptr[0];
};

这样，当您分配一个字符串对象时，您调用了 malloc(sizeof(struct string) + len) 并避免了对 malloc 的第二次调用。它需要做更多的工作，但它应该在速度和内存碎片方面有可衡量的帮助。

最后，如果这实际上不是错误的来源，那么看起来您有一些损坏。如果 gdb 失败，Valgrind 应该可以帮助您检测到它。

关于c - 从文件崩溃读取时使用 realloc 扩展缓冲区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8973129/

24

4

0

文章推荐： c - 使用 outb 和 inb 进行低级 I/O 访问

文章推荐： c - 将 "implicit declaration of function foo"视为错误

realloc - 如果它失败， realloc 会释放前一个缓冲区吗？
如果 realloc 失败并返回 NULL 是前一个缓冲区被释放还是保持不变？我没有在手册页中找到那条特定的信息，我不确定该怎么做。如果内存被释放，那么双重释放可能会有风险。如果没有，就会发生泄漏。
c - Realloc - Realloc 不会生成更小的 char*
OS: Linux CC: GCC 4.8.2 目标:改变 char* 的大小 -> 变小问题:更改后的大小相同... 行是带有数据的字符串... 代码片段: char * tmp = NUL
c - 无效的 realloc/realloc 返回 NULL
在一个函数中我使用了 malloc : void name1(struct stos* s) { s = malloc (4 * sizeof (int)); } 一切正常。但是后来我用了rea
c++ - realloc 函数，适用于使用 new 而不是 realloc 分配的内存
我知道有一个 realloc允许我调整内存块大小的函数(它与一个免费函数配对)。但是，我正在尝试对一些成员指针使用 new 而不是 realloc 分配内存的 c++ 类执行相同的操作。在 C++ 中
c - C 中的 realloc 函数导致 "realloc(): invalid pointer:"错误
我正在尝试在 C 中创建一个动态整数数组，它应该在填满后自动将其大小加倍。要扩展数组的大小，我想使用 realloc 函数。不幸的是，指向我的 DynamicArray 和 GCC 崩溃的数据的指针
正确使用 Realloc
这是我被教导使用的方式 realloc() : int *a = malloc(10); a = realloc(a, 100); // Why do we do "a = .... ?" if(a
c - realloc() C语言改变int数组中的值
我尝试在每个循环中使用 realloc()，因此我只为 C 中的 int 数组使用必要的内存，但输出值已更改。尽管如此，在我的代码中使用 Valgrind 时，我得到了正确的值。我在做 Advent
c - realloc() 一个递增的指针
平台:Linux 3.2.0 x86 (Debian Wheezy) 编译器:GCC 4.7.2 (Debian 4.7.2-5) 我想知道如果我尝试 realloc() 一个已递增的指针会发生什么。
CUDA:在内核中使用 realloc
我知道可以在内核中使用 malloc 在 GPU 的全局内存上分配内存。是否也可以使用realloc？最佳答案您可以为您的数据类型编写自己的 realloc 设备函数。只需为新数组分配新空间，将
c - realloc 不复制第一个索引
我在对数组使用 malloc/realloc 命令时遇到了一些问题。我创建了一个包含一些整数的小数组，并尝试通过使用 realloc 扩展大小并添加值来为其添加一个值，但是当我这样做时，0 索引的值不
c - Realloc 不复制旧数据
背景: 我使用 calloc() 创建了一个数组，一切都运行良好。然后我使用 realloc() 使数组更大。它似乎只是创建一个没有任何内容的新指针，并在我尝试访问数组中的元素时调用运行时错误。我的
c - realloc() 如何工作？
假设我已经使用 malloc() 分配了内存，如果我在我的代码中这样做: char *newline = realloc ( oldline , newsize ); // Assuming oldl
c - realloc 会释放现有内存吗？
我正在尝试在下面的程序中使用 realloc 重新分配内存，并在我使用 malloc(i = (int*)malloc(5 * sizeof(int))) 使用react的 realloc 初始内存之
c - Realloc 函数无法正常工作？
为什么下面的代码输出两次 4，而不是 8 和 20？谢谢 int size = 0; int *pointer; pointer = malloc(2 * sizeof(int)); size = s
c - realloc 在第二次调用时失败
我正在尝试将一堆 WCHAR 添加到缓冲区。这个函数就是将它添加到我的缓冲区中的原因.. DWORD add_to_buffer(BYTE *databuffer, WCHAR *path, WCHA
c - realloc 内存访问冲突读取位置
可能我的大脑现在不能正常工作......我想知道为什么我在我的代码中收到提到的错误: int ** zm; zm = (int**)calloc(1, sizeof(int*)); *zm = (in
c - Realloc 导致堆损坏
我正在尝试用 C 语言编写代码，但遇到了 realloc 的问题。该代码在某个时间点工作正常，但在另一时间重新分配期间因堆损坏错误而崩溃。我已将填充数据的结构和函数粘贴到其中。谁能告诉我我是否在这里做
c - realloc 是否会改变其参数
realloc 会改变它的第一个参数吗？改变第一个参数是否取决于实现？有什么理由不应该是const吗？作为反例，memcpy 将其 src 参数设为 const。 ISO C 标准，第 7.20.
c - realloc:下一个大小错误无效
我在 realloc 中遇到此错误，该错误仅发生在我学校的实验室计算机上，而不发生在我的计算机上。在此程序中，我将行号存储在 File_Node 结构中。 File_Node 是一个链表的一部分，每
c - 正确使用 realloc()
来自 man realloc:realloc() 函数返回一个指向新分配的内存的指针，该指针适合任何类型的变量，可能与 ptr 不同，如果请求失败，则返回 NULL . 因此在此代码片段中: ptr

首页

博学

6Ren·AI

商城

c - 从文件崩溃读取时使用 realloc 扩展缓冲区