c - 逐行读取文件，包括多个换行符-6ren

c - 逐行读取文件，包括多个换行符

转载作者：行者123 更新时间：2023-11-30 15:05:19

25

4

我正在尝试逐行读取未知大小的文件，包括单个或多个换行符。例如，如果我的sample.txt 文件如下所示

abc   cd er  dj
text

more   text


zxc cnvx

我希望我的字符串看起来像这样

string1 = "abc   cd er  dj\n";
string2 = "text\n\n";
string3 = "more   text\n\n\n";
string4 = "zxc convex";

我似乎无法想出可以正常工作的解决方案。我尝试使用以下代码来获取每行的长度(包括换行符)，但它给出的长度不正确

while((temp = fgetc(input)) != EOF) {
    if (temp != '\n') {
        length++;
    }
    else {
        if (temp == '\n') {
            while ((temp = fgetc(input)) == '\n') {
                length++;
            }
        }
        length = 0;
    } 
}

我在想，如果我可以获得包括换行符在内的每行的长度，然后我可以 malloc 该长度的字符串，然后使用 fread 读取该大小的字符串，但我不确定这是否有效，因为我必须移动文件指针才能获取下一个字符串。

我也不想使用缓冲区，因为我不知道每行的长度。任何形式的帮助将不胜感激。

最佳答案

如果行很短并且行数不多，您可以使用 realloc 根据需要重新分配内存。或者您可以使用较小(或较大)的 block 并重新分配。这有点浪费，但希望最终能达到平均水平。

如果您只想使用一个分配，则找到下一个非空行的开头并保存文件位置(使用ftell)。然后获取当前位置和前一个起始位置之间的差异，就知道要分配多少内存。对于读取，是的，您必须来回查找，但如果不是很大，所有数据都将在缓冲区中，而只是修改一些指针。读取后寻找保存的位置并将其作为下一个起始位置。

那么您当然可以memory-map the file 。这会将文件内容放入内存映射中，就像已全部分配一样。对于 64 位系统，地址空间足够大，因此您应该能够映射数 GB 文件。那么你不需要寻找或分配内存，你所做的只是操作指针而不是寻找。读取只是简单的内存复制(但是由于文件已经“在”内存中，所以您实际上并不需要它，只需保存指针即可)。

<小时/>

关于 fseek 的非常简单示例和 ftell ，这与你的问题有些相关，我为你整理了这个小程序。它实际上并没有做任何特别的事情，但它展示了如何以可用于我上面讨论的第二种方法的原型(prototype)的方式使用这些函数。

#include <stdio.h>
#include <stdlib.h>

int main(void)
{
    FILE *file = fopen("some_text_file.txt", "r");

    // The position after a successful open call is always zero
    long start_of_line = 0;

    int ch;

    // Read characters until we reach the end of the file or there is an error
    while ((ch = fgetc(file)) != EOF)
    {
        // Hit the *first* newline (which differs from your problem)
        if (ch == '\n')
        {
            // Found the first newline, get the current position
            // Note that the current position is the position *after* the newly read newline
            long current_position = ftell(file);

            // Allocate enough memory for the whole line, including newline
            size_t bytes_in_line = current_position - start_of_line;
            char *current_line = malloc(bytes_in_line + 1);  // +1 for the string terminator

            // Now seek back to the start of the line
            fseek(file, start_of_line, SEEK_SET);  // SEEK_SET means the offset is from the beginning of the file

            // And read the line into the buffer we just allocated
            fread(current_line, 1, bytes_in_line, file);

            // Terminate the string
            current_line[bytes_in_line] = '\0';

            // At this point, if everything went well, the file position is
            // back at current_position, because the fread call advanced the position
            // This position is the start of the next line, so we use it
            start_of_line = current_position;

            // Then do something with the line...
            printf("Read a line: %s", current_line);

            // Finally free the memory we allocated
            free(current_line);
        }

        // Continue loop reading character, to read the next line
    }

    // Did we hit end of the file, or an error?
    if (feof(file))
    {
        // End of the file it is

        // Now here's the tricky bit. Because files doesn't have to terminated
        // with a newline, at this point we could actually have some data we
        // haven't read. That means we have to do the whole thing above with
        // the allocation, seeking and reading *again*

        // This is a good reason to extract that code into its own function so
        // you don't have to repeat it

        // I will not repeat the code my self. Creating a function containing it
        // and calling it is left as an exercise
    }

    fclose(file);

    return 0;
}

请注意，为了简洁起见，该程序不包含任何错误处理。还应该指出的是，我实际上并没有尝试过该程序，甚至没有尝试编译它。这都是专门为这个答案而写的。

关于c - 逐行读取文件，包括多个换行符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39934530/

25

4

0

文章推荐： javascript - 在 InitComponent EXTJS 中使用类型

文章推荐： c# - 带有更新 excel 单元格的 OLEDB

文章推荐： javascript - 用于条件onClick事件的riot js三元组

django - 我可以在同一个 url 模式中包含两个不同的 url 吗？示例 [路径 ('api/' , 包括 ('quiz.urls' )), 路径 ('api/' , 包括 ('user.urls' )) ]
127.0.0.1:8000/api/仅包含来自第二个应用程序的 url，但我将两个 url 模块链接到相同的模式。甚至有可能做到这一点吗？第一个应用程序: from django.urls imp
ColdFusion 包括
我目前正在学习 ColdFusion。我有 PHP 背景，对此我有点困惑。我有一个选择菜单，我希望将选项保存在不同的文件中。 (例如 options.cfm)当我调用文件时，我想在选择菜单中包含选项
java正则表达式删除数字，包括，
字符串: "75,000", "is", "95%", "or", "95/100" "of", "monthly", "income" o/p: "is","%, "or", "/", "of",
JavaScript 包括
我有 4 个 javascript 文件(每个文件对应一个 HTML 文件)，所有 4 个文件中的 3 个函数都是相同的。我想找到一个顺利的解决方案，我可以以某种方式分别包含这 3 个函数...是否可
php - 包括/要求路径解析
我在 PHP 中有这种情况，其中 include在一台服务器上被遗漏，但在另一台服务器上没有(我没有设置服务器，所以我不能告诉你更多；我不是真正的 devops 人，所以这就是我在这里问的原因)。两台
xsd - 包括/导入具有命名空间的本地模式
这是一个模式文件，midi.xsd定义类型，note ，用于存储 MIDI 音符值: 这是另一个模式文件，octaves.xsd使用
备份多个文件夹(包括/不包括)
我想备份以下文件夹 /home /etc /usr/local /root /var /boot 并排除 /var/tmp /var/run /var/lock /home/*/.thumbnails
重新编码具有许多值的数值变量，包括 NA
如何重新编码具有许多值(包括缺失值)的数值变量，以获得数字 0:n-1哪里n是唯一值的数量，包括 NA ，整齐？例子: df 1 1000 0 2 1000 0 3 N
JQuery:选择一个元素的html，包括？
选择元素的 html(包括在内)的最佳方法是什么？例如: This is just a test. 而$('#testDiv').html()返回"This is just a test."
未处理ESI的 Varnish 包括
我正在尝试设置Varnish来处理本地环境中的ESI包含。我在虚拟机中运行 Varnish ，内容在主机上运行。我有两个文件“index.html”和“test.html”。它们都存储在apach
xml - 使用XPath表达式获取XML中的非空元素，包括
我有以下内容，并且想要检索“ FromEmail”不为空的数据 Simple email@gma
PHP "Global"包括
欧海，我正在编写一个小型 PHP 应用程序，使用一个单独的 config.php 文件和一个functions.php，其中包含我将在应用程序中使用的所有自定义函数。现在，我真的必须在每个函数中包含
javascript - 包括 JavaScript
我知道可以将 JavaScript 放在一个特定的 .js 文件中，然后通过执行以下操作将其包含在任何页面中...... 我注意到，对于包含的这些 .js 文件: 它们实际上不必以 .js 结尾其
java - 包括 & 在我的组合框中
我使用 gwt UIBinder 添加了一些项目到我的 ComboBox。 --select one-- Dispute Referral Form Dispute Settlement Clause
c - 包括.c文件c程序
我可以将一个 first.c 文件包含到另一个 second.c 中吗？ (我正在做一些套接字编程，以将服务器收到的消息存储在链接列表中，因此在第一个程序中，我尝试保留链接列表和第二个程序套接字编程文
java - 包括 NOT IN 条件下的省略记录
我有一个简单的 Spring MVC 数据项目设置，我试图选择 Admin 中尚不存在的用户列表。 table 。这是我的存储库方法 SELECT u FROM User u WHERE u.id N
bash - 删除两个定界符之间的字符串，包括
在 bash 脚本中，使用什么实用程序以及如何删除两个字符串之间的文本，包括字符串。原文: (ABC blah1)blah 2(def blah 5)blah 7)(DEF blah 8)blah
Java - 包括 BST
我有这个 BST 问题，我试图用 Java 解决，但我不知道为什么它不起作用。问题是: 二叉搜索树 (BST) 是一种二叉树，其中每个值节点大于或等于该节点的所有节点中的值左子树并且小于该树中所有节点
java替换字符串中的多个字符，包括 "\u00A2"
我有一个字符串，其中包含“Dollars”和“Cents”符号。我想删除它们。我试过了 string.replaceAll("[\"\\u00A2\" $]", "") 但它不起作用。正确的做法是什么
mysql - 按标签搜索，包括
我在 stories 和 tags 之间有一个多对多的关系，为保存关系而创建的表是 taxonomies。我想搜索所有具有所有给定标签的故事。到目前为止我使用的查询是这个，当然它对我不起作用，它返回

首页

博学

6Ren·AI

商城

c - 逐行读取文件，包括多个换行符