python - 为什么在没有换行符的情况下读取文件会更快？

转载作者：太空狗更新时间：2023-10-29 17:28:34

24

4

在 Python 3.6 中，如果有换行符，读取文件的时间会更长。如果我有两个文件，一个有换行符，一个没有换行符(但它们具有相同的文本)，那么带有换行符的文件将花费大约 100-200% 的时间来阅读。我提供了一个具体的例子。

第 1 步:创建文件

sizeMB = 128
sizeKB = 1024 * sizeMB

with open(r'C:\temp\bigfile_one_line.txt', 'w') as f:
    for i in range(sizeKB):
        f.write('Hello World!\t'*73)  # There are roughly 73 phrases in one KB

with open(r'C:\temp\bigfile_newlines.txt', 'w') as f:
    for i in range(sizeKB):  
        f.write('Hello World!\n'*73)

第 2 步:使用单行和时间性能读取文件

IPython

%%timeit
with open(r'C:\temp\bigfile_one_line.txt', 'r') as f:
    text = f.read()

输出

1 loop, best of 3: 368 ms per loop

第三步:读取多行和时间性能的文件

IPython

%%timeit
with open(r'C:\temp\bigfile_newlines.txt', 'r') as f:
    text = f.read()

输出

1 loop, best of 3: 589 ms per loop

这只是一个例子。我已经在许多不同的情况下对此进行了测试，他们做同样的事情:

从 1MB 到 2GB 的不同文件大小
使用 file.readlines() 代替 file.read()
在单行文件中使用空格而不是制表符('\t')(即'Hello World!')

我的结论是，带有换行符 ('\n') 的文件比没有换行符的文件读取时间更长。但是，我希望所有角色都受到相同的对待。在读取大量文件时，这会对性能产生重要影响。 有人知道为什么会这样吗？

我正在使用 Python 3.6.1、Anaconda 4.3.24 和 Windows 10。

最佳答案

当您在 Python 中以文本模式(默认)打开文件时，它会使用所谓的“通用换行符”(在 PEP 278 中引入，但后来随着 Python 3 的发布而有所改变)。通用换行符的意思是，无论文件中使用何种换行符，您在 Python 中只会看到 \n。因此，包含 foo\nbar 的文件与包含 foo\r\nbar 或 foo\rbar 的文件看起来相同(因为 \n、\r\n 和\r 都是某些操作系统在某些时候使用的行结束约定。

提供这种支持的逻辑可能是导致性能差异的原因。即使文件中的 \n 字符没有被转换，代码也需要比非换行符更仔细地检查它们。

我怀疑如果您以不提供此类换行支持的二进制模式打开文件，您看到的性能差异将会消失。您还可以将 newline 参数传递给 Python 3 中的 open，根据您提供的确切值，它可以有不同的含义。我不知道任何特定值会对性能产生什么影响，但如果您看到的性能差异对您的程序真的很重要，则可能值得测试。我会尝试传递 newline="" 和 newline="\n"(或者您平台的常规行结尾是什么)。

关于python - 为什么在没有换行符的情况下读取文件会更快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46415568/

24

4

0

文章推荐： node.js - CORS - 选项 ... 404(未找到)

文章推荐： c# - 正确使用 Action 和 Events

文章推荐： Angular 2 : Circular Feature module dependency

文章推荐： c# - 为什么接口(interface)不能包含类型？

java - 在具有多个条件的 If 情况下，我们能否获得条件失败的确切位置？
我是 Java 新手，这是我的代码， if( a.name == b.name && a.displayname == b.displayname && a.linknam
javascript - 在下面的 JavaScript 情况下，如何避免重复自己的情况？
在下面的场景中，我有一个 bool 值。根据结果，我调用完全相同的函数，唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
c++ - 异常(exception)情况下，我想在没有任何堆栈展开的情况下进行调试
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序？是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
c++ - 在什么情况/情况下 dynamic_cast<> 会失败？
在修复庞大代码库中的错误时，我观察到一个奇怪的情况，其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
c# for 循环在 switch/case 情况下 - 如何？
我正在尝试用 C# 扩展给定的代码，但由于缺乏编程经验，我有点陷入困境。使用 Visual Studio 社区，我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
javascript - 在 AJAX 情况下，如何在目标页面评估 JavaScript？
这可能是一个哲学问题。假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
html - 在 Usemap/area 情况下，光标未更改为指针
我有以下 HTML 代码，我无法在所有浏览器中正常工作: 我试图在移动到
swift - 在这种 Firebase 情况下，如何在函数之间传递数据？ swift + Xcode
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉，在两
ios - 在 iPad DetailView 情况下，viewDidUnload 未被调用
我设置了一个详细 View ，我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。我发现，对于 Nibs 的类，永远不会调用 viewDidUnloa
javascript - 在这种 javascript 情况下，除了 eval 之外还有其他选择吗？
我需要动态访问 json 文件并使用以下代码。在本例中，“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
c# - 在 HTTPS 情况下，服务器证书未使用 HTTP.SYS 正确配置
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书，但是在调用 WCF 服务时出现以下异常。向 https://XXXX.com/AHSharedServices/Custome
postgresql - 即使在 ON CONFLICT DO NOTHING 情况下，postgres INSERT 触发器也会触发
在几个 SO 答案(1、2)中，建议如果存在冲突则不应触发 INSERT 触发器，ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了，但在我的实验中似乎并非如此。这是我的 S
java - 在 Hibernate3 中的 saveOrUpdateAll 情况下，具有相同标识符值的不同对象已与 session 关联
如果进行修改，则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
javascript - 为什么 React App 的 redux 情况下 IndexOf(Object) 可以工作？
我使用 indexOf() 方法来精细地查找数组中的对象。直到此刻我查了一些资料，发现代码应该无法正常工作。我在reducer中尝试了上面的代码，它成功了 let tmp = state.find
mysql - 在指定了 ORDER BY 和 LIMIT 并且实际上只需要连接少量行的 JOIN 情况下，MySQL 的行为如何？
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
ios - 在使用 swift ios 的某些 URL 情况下，Alamofire 进度状态显示 0.0
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in

首页

博学

6Ren·AI

商城

python - 为什么在没有换行符的情况下读取文件会更快？

第 1 步:创建文件

第 2 步:使用单行和时间性能读取文件

IPython

输出

第三步:读取多行和时间性能的文件

IPython

输出