- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在 Python 3.6 中,如果有换行符,读取文件的时间会更长。如果我有两个文件,一个有换行符,一个没有换行符(但它们具有相同的文本),那么带有换行符的文件将花费大约 100-200% 的时间来阅读。我提供了一个具体的例子。
sizeMB = 128
sizeKB = 1024 * sizeMB
with open(r'C:\temp\bigfile_one_line.txt', 'w') as f:
for i in range(sizeKB):
f.write('Hello World!\t'*73) # There are roughly 73 phrases in one KB
with open(r'C:\temp\bigfile_newlines.txt', 'w') as f:
for i in range(sizeKB):
f.write('Hello World!\n'*73)
%%timeit
with open(r'C:\temp\bigfile_one_line.txt', 'r') as f:
text = f.read()
1 loop, best of 3: 368 ms per loop
%%timeit
with open(r'C:\temp\bigfile_newlines.txt', 'r') as f:
text = f.read()
1 loop, best of 3: 589 ms per loop
这只是一个例子。我已经在许多不同的情况下对此进行了测试,他们做同样的事情:
我的结论是,带有换行符 ('\n') 的文件比没有换行符的文件读取时间更长。但是,我希望所有角色都受到相同的对待。在读取大量文件时,这会对性能产生重要影响。 有人知道为什么会这样吗?
我正在使用 Python 3.6.1、Anaconda 4.3.24 和 Windows 10。
最佳答案
当您在 Python 中以文本模式(默认)打开文件时,它会使用所谓的“通用换行符”(在 PEP 278 中引入,但后来随着 Python 3 的发布而有所改变)。通用换行符的意思是,无论文件中使用何种换行符,您在 Python 中只会看到 \n
。因此,包含 foo\nbar
的文件与包含 foo\r\nbar
或 foo\rbar
的文件看起来相同(因为 \n
、\r\n
和\r
都是某些操作系统在某些时候使用的行结束约定。
提供这种支持的逻辑可能是导致性能差异的原因。即使文件中的 \n
字符没有被转换,代码也需要比非换行符更仔细地检查它们。
我怀疑如果您以不提供此类换行支持的二进制模式打开文件,您看到的性能差异将会消失。您还可以将 newline
参数传递给 Python 3 中的 open
,根据您提供的确切值,它可以有不同的含义。我不知道任何特定值会对性能产生什么影响,但如果您看到的性能差异对您的程序真的很重要,则可能值得测试。我会尝试传递 newline=""
和 newline="\n"
(或者您平台的常规行结尾是什么)。
关于python - 为什么在没有换行符的情况下读取文件会更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46415568/
我是 Java 新手,这是我的代码, if( a.name == b.name && a.displayname == b.displayname && a.linknam
在下面的场景中,我有一个 bool 值。根据结果,我调用完全相同的函数,唯一的区别是参数的数量。 var myBoolean = ... if (myBoolean) { retrieve
我是一名研究 C++ 的 C 开发人员: 我是否正确理解如果我抛出异常然后堆栈将展开直到找到第一个异常处理程序?是否可以在不展开的情况下在任何 throw 上打开调试器(即不离开声明它的范围或任何更高
在修复庞大代码库中的错误时,我观察到一个奇怪的情况,其中引用的动态类型从原始 Derived 类型更改为 Base 类型!我提供了最少的代码来解释问题: struct Base { // some
我正在尝试用 C# 扩展给定的代码,但由于缺乏编程经验,我有点陷入困境。 使用 Visual Studio 社区,我尝试通过控制台读出 CPU 核心温度。该代码使用开关/外壳来查找传感器的特定名称(即
这可能是一个哲学问题。 假设您正在向页面发出 AJAX 请求(这是使用 Prototype): new Ajax.Request('target.asp', { method:"post", pa
我有以下 HTML 代码,我无法在所有浏览器中正常工作: 我试图在移动到
我对 Swift 很陌生。我如何从 addPin 函数中检索注释并能够在我的 addLocation 操作 (buttonPressed) 中使用它。我正在尝试使用压力触摸在 map 上添加图钉,在两
我设置了一个详细 View ,我是否有几个 Nib 文件根据在 Root View Controller 的表中选择的项目来加载。 我发现,对于 Nibs 的类,永远不会调用 viewDidUnloa
我需要动态访问 json 文件并使用以下代码。在本例中,“bpicsel”和“temp”是变量。最终结果类似于“data[0].extit1” var title="data["+bpicsel+"]
我需要使用第三方 WCF 服务。我已经在我的证书存储中配置了所需的证书,但是在调用 WCF 服务时出现以下异常。 向 https://XXXX.com/AHSharedServices/Custome
在几个 SO 答案(1、2)中,建议如果存在冲突则不应触发 INSERT 触发器,ON CONFLICT DO NOTHING 在触发语句中。也许我理解错了,但在我的实验中似乎并非如此。 这是我的 S
如果进行修改,则会给出org.hibernate.NonUniqueObjectException。在我的 BidderBO 类(class)中 @Override @Transactional(pr
我使用 indexOf() 方法来精细地查找数组中的对象。 直到此刻我查了一些资料,发现代码应该无法正常工作。 我在reducer中尝试了上面的代码,它成功了 let tmp = state.find
假设我有以下表格: CREATE TABLE Game ( GameID INT UNSIGNED NOT NULL, GameType TINYINT UNSIGNED NOT NU
代码: Alamofire.request(URL(string: imageUrl)!).downloadProgress(closure: { (progress) in
我是一名优秀的程序员,十分优秀!