C:使用 fread()/fgets() 而不是 fgetc() 逐行读取文本文件(具有可变长度行)( block I/O 与字符 I/O)-6ren

C:使用 fread()/fgets() 而不是 fgetc() 逐行读取文本文件(具有可变长度行)( block I/O 与字符 I/O)

转载作者：太空狗更新时间：2023-10-29 17:23:17

27

4

是否有 getline 函数使用 fread( block I/O)而不是 fgetc(字符 I/O)？

通过 fgetc 逐字符读取文件会降低性能。我们认为为了提高性能，我们可以在getline的内循环中通过fread来使用block reads。然而，这引入了阅读超过行尾的潜在不良影响。至少，这需要执行 getline 来跟踪文件的“未读”部分，这需要超出 ANSI C FILE 语义的抽象。这不是我们想要自己实现的东西!

我们分析了我们的应用程序，缓慢的性能与我们通过 fgetc 一个字符一个字符地处理大文件这一事实无关。相比之下，其余的开销实际上是微不足道的成本。我们总是按顺序读取文件的每一行，从开始到结束，我们可以在读取期间锁定整个文件。这可能会使基于 fread 的 getline 更容易实现。

那么，是否存在使用 fread( block I/O)而不是 fgetc(字符 I/O)的 getline 函数？我们非常确定它确实如此，但如果不是，我们应该如何实现它？

更新找到有用的文章，Handling User Input in C ，作者:谢保。这是一种基于 fgetc 的方法，但它对备选方案进行了有趣的讨论(从 gets 有多糟糕开始，然后讨论 fgets):

On the other hand the common retort from C programmers (even those considered experienced) is to say that fgets() should be used as an alternative. Of course, by itself, fgets() doesn't really handle user input per se. Besides having a bizarre string termination condition (upon encountering \n or EOF, but not \0) the mechanism chosen for termination when the buffer has reached capacity is to simply abruptly halt the fgets() operation and \0 terminate it. So if user input exceeds the length of the preallocated buffer, fgets() returns a partial result. To deal with this programmers have a couple choices; 1) simply deal with truncated user input (there is no way to feed back to the user that the input has been truncated, while they are providing input) 2) Simulate a growable character array and fill it in with successive calls to fgets(). The first solution, is almost always a very poor solution for variable length user input because the buffer will inevitably be too large most of the time because its trying to capture too many ordinary cases, and too small for unusual cases. The second solution is fine except that it can be complicated to implement correctly. Neither deals with fgets' odd behavior with respect to '\0'.

Exercise left to the reader: In order to determine how many bytes was really read by a call to fgets(), one might try by scanning, just as it does, for a '\n' and skip over any '\0' while not exceeding the size passed to fgets(). Explain why this is insufficient for the very last line of a stream. What weakness of ftell() prevents it from addressing this problem completely?

Exercise left to the reader: Solve the problem determining the length of the data consumed by fgets() by overwriting the entire buffer with a non-zero value between each call to fgets().

So with fgets() we are left with the choice of writing a lot of code and living with a line termination condition which is inconsistent with the rest of the C library, or having an arbitrary cut-off. If this is not good enough, then what are we left with? scanf() mixes parsing with reading in a way that cannot be separated, and fread() will read past the end of the string. In short, the C library leaves us with nothing. We are forced to roll our own based on top of fgetc() directly. So lets give it a shot.

那么，是否存在基于 fgets(并且不截断输入)的 getline 函数？

最佳答案

不要使用fread。使用 fgets。我认为这是一个家庭作业/类项目问题，所以我没有提供完整的答案，但如果你说不是，我会提供更多建议。完全可以使用 fgets 提供 GNU 风格 getline 的 100% 语义，包括嵌入的空字节，但这需要一些巧妙的思考。

好的，更新一下，因为这不是家庭作业:

memset 您的缓冲区到 '\n'。
使用 fgets。
使用memchr 找到第一个'\n'。
如果未找到 '\n'，则该行比您的缓冲区长。放大缓冲区，用 '\n' 填充新部分，并将 fgets 放入新部分，必要时重复。
如果 '\n' 后面的字符是 '\0'，则 fgets 会因到达行尾而终止。
否则，fgets 由于到达 EOF 而终止，'\n' 是您的 memset 遗留下来的，前一个字符是终止fgets写的null，之前的字符是实际读取数据的最后一个字符。

如果您不关心支持带有嵌入空值的行(或者方式，null 不会终止阅读；它只是您读入行的一部分)。

还有一种方法可以用 fscanf 和 "%123[^\n]" 说明符(其中 123是您的缓冲区限制)，这使您可以灵活地在非换行符处停止(ala GNU getdelim)。但是它可能很慢，除非你的系统有一个非常奇特的 scanf 实现。

关于C:使用 fread()/fgets() 而不是 fgetc() 逐行读取文本文件(具有可变长度行)( block I/O 与字符 I/O)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4411345/

27

4

0

文章推荐： asp.net - .Net Core Cookie 身份验证在 IIS 中托管时不起作用

文章推荐： c - 高效的 C 池分配器？

文章推荐： json文件的Angular 2 http GET返回404

文章推荐： c - mbrtowc 的 s==NULL 案例的目的是什么？

Python:Pandas 读取 csv:读取 csv 时向下转换
我遇到以下问题。我想读取一个包含数百万行和数百列的大型 csv。我想向下转换列的数据类型。我的方法是读取 csv，然后使用 pd.to_numeric() 对其进行向下转换。我不知道列数及其类型。在读
c# - 从 SQL Server 读取 - 需要从 CSV 读取
目前，我从 SQL server (2008) 数据库获取数据。 cyurrent的方法是使用DataTable，然后将其传递并使用。 if (parameters != null)
python - Dask 读取 csv 与 pandas 读取 csv
我有以下问题。我有一个巨大的 csv 文件，想用多处理加载它。对于一个包含 500000 行和 130 列不同数据类型的示例文件，Pandas 需要 19 秒。我试过 dask 因为我想多处理阅读。但
java - 读取 VC++ CArchive 二进制格式(或 Java 读取 (CObArray))
是否有关于用于序列化各种 MFC 数据结构的二进制格式的明确文档？我已经能够在十六进制编辑器中查看我自己的一些类，并使用 Java 的 ByteBuffer 类读取它们(使用自动字节顺序转换等)。但
javascript - 是否可以使用 javascript 读取 something.properties ？ (在 .hta 文件中)>> 读取 Selenium
我正在使用 Selenium 进行测试，我们用 HTML 文件编写测试用例，并用它们制作测试套件，我们的要求是编写足够健壮的测试用例，以根据测试环境改变自身。为此，我不希望在 HTML 脚本本身中包
读取.txt文件的Javascript代码
我需要一个 JavaScript 代码来读取存储为 .txt 文件的字典(或者也可以保存为任何其他类型的文件。它也可以在线获得)并将其内容存储在一个变量中。我不能找到一种让 JavaScript 像
java - 读取/过滤文本文件的最快方法是什么
我正在尝试遍历包含 SSH 登录和其他日志的日志文本文件。程序正在返回 SSH 登录的总数。我的解决方案确实有效，但似乎有点慢(在 200mo 文件上大约需要 3.5 秒)。我想知道是否有任何方法
vba - 读取/写入大量数据
我正在将大量数据从一个电子表格复制到工作簿中的其他 160 个电子表格。目前，Excel (2013) 遇到错误，因为它没有足够的资源来完成操作。我的目标是将工作表 4 中 V13:XI1150 范
VBA 读取/搜索文本文件
我正在尝试读取一个有 1147 行的文本文件。下面的代码仅读取第 1050-1147 行。我的目标是读取整个文件并提取位于不同行的特定值以在脚本中使用。一个示例是包含“BlockList: 2”的行中
Prolog 用户输入的时间限制(读取)
我正在为游戏编写解释器。用户将其移动输入解释器，程序执行该移动。现在我想为每个决定实现一个时间限制。玩家不应该能够思考超过 30 秒来写一个移动并按下回车。 call_with_time_limit
读取 HITRAN 文件格式
以this file例如，我正在尝试读取 data.frame 中的数据。来自 the doc (pdf 文件，表 1)，它遵循一些 fortran 约定。我尝试了以下但收效甚微: dir 0' 将
读取 R 的电子邮件附件
我正在使用 R 阅读 Outlook 附件。我的引用在这里:Download attachment from an outlook email using R 这是我的电子邮件的截图: 这每天都会发送
php xmlrpc 读取
我不会从表格中读取行来将主题放在列表中 php脚本 $url_obj='http://'.$host.':8069/xmlrpc/object'; $sock=new xmlrpc_client($u
读取 csv 但跳过字符串中的转义逗号
我有一个这样的 csv 文件: id,name,value 1,peter,5 2,peter\,paul,3 我如何读取此文件并告诉 R "\," 不表示新列，仅表示 ","。我必须添加该文件
macos - 读取 plist
我正在尝试读取 ~/Library/Preferences/com.apple.mail.plist (在 Snow Leopard 上)以获取电子邮件地址和其他信息以进入“关于”对话框。我使用以下代
bash - 读取 float
This question already has answers here: How do I use floating-point division in bash? (19个回答) 5个月前关闭
COBOL 读取/存储在表中
本练习的目标是读取输入文件并将其存储到表中，然后验证输入中的某些字段并输出任何错误记录。我需要读取并存储每个策略组，以便表中一次仅存储 5 条记录，而不是整个文件。所以我需要读取一个包含 5 条记录
Cassandra LWT 读取
据我了解，LWT 插入始终以 SERIAL 一致性级别完成。如果为 true，这是否意味着读取作为 LWT 插入的行可以安全地以 ANY 的一致性级别读取？换句话说，我假设 LWT 插入是完全一致的
JavaScript:读取 cookie
我看到很多很多通过java脚本读取cookie的函数，但我只想在变量中使用它一次，我是JS新手。这是我的代码 var TheNumber = (Math.random() + '') * 10000
c# - 读取.net中的程序集
我正在使用 asp.net 和 C#。我在服务器上部署了一个应用程序[已发布]，现在我想查看该网站的代码，据我所知，我可以阅读程序集来查看代码。请告诉我如何实现它。提前致谢。最佳答案您可以使用

首页

博学

6Ren·AI

商城

C:使用 fread()/fgets() 而不是 fgetc() 逐行读取文本文件(具有可变长度行)( block I/O 与字符 I/O)