gpt4 book ai didi

python - 我应该如何在 Python 中逐行读取文件?

转载 作者:IT老高 更新时间:2023-10-28 12:32:41 32 4
gpt4 key购买 nike

在史前时代(Python 1.4)我们做到了:

fp = open('filename.txt')
while 1:
line = fp.readline()
if not line:
break
print(line)

在 Python 2.1 之后,我们做到了:

for line in open('filename.txt').xreadlines():
print(line)

在我们在 Python 2.3 中获得方便的迭代器协议(protocol)之前,可以这样做:

for line in open('filename.txt'):
print(line)

我见过一些使用更详细的例子:

with open('filename.txt') as fp:
for line in fp:
print(line)

这是 future 的首选方法吗?

[edit] 我知道 with 语句可以确保关闭文件...但是为什么文件对象的迭代器协议(protocol)中没有包含它?

最佳答案

以下是首选的原因之一:

with open('filename.txt') as fp:
for line in fp:
print(line)

我们都被 CPython 用于垃圾收集的相对确定性的引用计数方案宠坏了。其他假设的 Python 实现如果使用其他方案来回收内存,则在没有 with block 的情况下不一定会“足够快地”关闭文件。

在这样的实现中,如果您的代码打开文件的速度快于垃圾收集器在孤立文件句柄上调用终结器的速度,您可能会从操作系统收到“打开的文件过多”错误。通常的解决方法是立即触发 GC,但这是一个讨厌的 hack,必须由可能遇到错误的 每个 函数完成,包括库中的函数。真是一场噩梦。

或者你可以只使用 with block 。

奖金问题

(如果只对问题的客观方面感兴趣,请立即停止阅读。)

Why isn't that included in the iterator protocol for file objects?

这是一个关于 API 设计的主观问题,所以我有两个部分的主观答案。

从直觉上看,这感觉是错误的,因为它让迭代器协议(protocol)做两件独立的事情——遍历行关闭文件句柄——而且制作一个看起来简单的东西通常是个坏主意函数做两个 Action 。在这种情况下,感觉特别糟糕,因为迭代器以准功能、基于值的方式与文件内容相关,但管理文件句柄是一项完全独立的任务。将两者无形地压缩到一个 Action 中,对于阅读代码的人来说是令人惊讶的,并且使推理程序行为变得更加困难。

其他语言基本上也得出了相同的结论。 Haskell 曾短暂使用过所谓的“惰性 IO”,它允许您遍历文件并在到达流的末尾时自动关闭它,但现在几乎普遍不鼓励在 Haskell 和 Haskell 中使用惰性 IO用户大多转向更明确的资源管理,如 Conduit,其行为更像 Python 中的 with block 。

在技术层面上,您可能希望对 Python 中的文件句柄执行一些操作,如果迭代关闭文件句柄,这些操作将无法正常工作。例如,假设我需要对文件进行两次迭代:

with open('filename.txt') as fp:
for line in fp:
...
fp.seek(0)
for line in fp:
...

虽然这是一个不太常见的用例,但请考虑这样一个事实,即我可能刚刚将底部的三行代码添加到最初具有顶部三行的现有代码库中。如果迭代关闭了文件,我将无法做到这一点。因此,将迭代和资源管理分开可以更容易地将代码块组合成一个更大的、可运行的 Python 程序。

可组合性是语言或 API 最重要的可用性特性之一。

关于python - 我应该如何在 Python 中逐行读取文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11555468/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com