python - 对 StringIO、StringIO 和 BytesIO 感到困惑-6ren

python - 对 StringIO、StringIO 和 BytesIO 感到困惑

转载作者：IT老高更新时间：2023-10-28 20:47:58

我已经用谷歌搜索并在 SO 上搜索这些缓冲区模块之间的区别。不过，我还是不是很明白，我觉得我看的一些帖子已经过时了。

在 Python 2.7.11 中，我使用 r = requests.get(url) 下载了特定格式的二进制文件。然后我通过了 StringIO.StringIO(r.content)、cStringIO.StringIO(r.content) 和 io.BytesIO(r.content)为解析内容而设计的函数。

所有这三种方法都可用。我的意思是，即使文件是二进制文件，使用 StringIO 仍然是可行的。为什么？

另一件事是关于他们的效率。

In [1]: import StringIO, cStringIO, io

In [2]: from numpy import random

In [3]: x = random.random(1000000)

In [4]: %timeit y = cStringIO.StringIO(x)
1000000 loops, best of 3: 736 ns per loop

In [5]: %timeit y = StringIO.StringIO(x)
1000 loops, best of 3: 283 µs per loop

In [6]: %timeit y = io.BytesIO(x)
1000 loops, best of 3: 1.26 ms per loop

如上图所示，cStringIO > StringIO > BytesIO。

我发现有人提到 io.BytesIO 总是制作一个新副本，这会花费更多时间。但也有一些帖子提到，这在以后的 Python 版本中已修复。

那么，任何人都可以在最新的 Python 2.x 和 3.x 中对这些 IO 进行彻底的比较吗？

我找到的一些引用资料:

https://trac.edgewall.org/ticket/12046

io.StringIO requires a unicode string. io.BytesIO requires a bytes string. StringIO.StringIO allows either unicode or bytes string. cStringIO.StringIO requires a string that is encoded as a bytes string.

但是 cStringIO.StringIO('abc') 不会引发任何错误。

https://review.openstack.org/#/c/286926/1

The StringIO class is the wrong class to use for this, especially considering that subunit v2 is binary and not a string.
http://comments.gmane.org/gmane.comp.python.devel/148717

cStringIO.StringIO(b'data') didn't copy the data while io.BytesIO(b'data') makes a copy (even if the data is not modified later).

2014 年这篇文章中有一个修复补丁。

这里没有列出很多 SO 帖子。

这是 Eric 示例的 Python 2.7 结果

%timeit cStringIO.StringIO(u_data)
1000000 loops, best of 3: 488 ns per loop
%timeit cStringIO.StringIO(b_data)
1000000 loops, best of 3: 448 ns per loop
%timeit StringIO.StringIO(u_data)
1000000 loops, best of 3: 1.15 µs per loop
%timeit StringIO.StringIO(b_data)
1000000 loops, best of 3: 1.19 µs per loop
%timeit io.StringIO(u_data)
1000 loops, best of 3: 304 µs per loop
# %timeit io.StringIO(b_data)
# error
# %timeit io.BytesIO(u_data)
# error
%timeit io.BytesIO(b_data)
10000 loops, best of 3: 77.5 µs per loop

至于 2.7，cStringIO.StringIO 和 StringIO.StringIO 远比 io 高效。

最佳答案

您应该使用 io.StringIO 处理 unicode 对象和 io.BytesIO 处理 bytes 对象python 2 和 3 都具有向前兼容性(这是 3 所必须提供的)。

这是一个更好的测试(对于 python 2 和 3)，它不包括从 numpy 到 str/bytes

的转换成本

import numpy as np
import string
b_data = np.random.choice(list(string.printable), size=1000000).tobytes()
u_data = b_data.decode('ascii')
u_data = u'\u2603' + u_data[1:]  # add a non-ascii character

然后:

import io
%timeit io.StringIO(u_data)
%timeit io.StringIO(b_data)
%timeit io.BytesIO(u_data)
%timeit io.BytesIO(b_data)

在python 2中也可以测试:

import StringIO, cStringIO
%timeit cStringIO.StringIO(u_data)
%timeit cStringIO.StringIO(b_data)
%timeit StringIO.StringIO(u_data)
%timeit StringIO.StringIO(b_data)

其中一些会崩溃，提示非 ascii 字符

Python 3.5 结果:

>>> %timeit io.StringIO(u_data)
100 loops, best of 3: 8.61 ms per loop
>>> %timeit io.StringIO(b_data)
TypeError: initial_value must be str or None, not bytes
>>> %timeit io.BytesIO(u_data)
TypeError: a bytes-like object is required, not 'str'
>>> %timeit io.BytesIO(b_data)
The slowest run took 6.79 times longer than the fastest. This could mean that an intermediate result is being cached
1000000 loops, best of 3: 344 ns per loop

Python 2.7 结果(在不同的机器上运行):

>>> %timeit io.StringIO(u_data)
1000 loops, best of 3: 304 µs per loop
>>> %timeit io.StringIO(b_data)
TypeError: initial_value must be unicode or None, not str
>>> %timeit io.BytesIO(u_data)
TypeError: 'unicode' does not have the buffer interface
>>> %timeit io.BytesIO(b_data)
10000 loops, best of 3: 77.5 µs per loop

>>> %timeit cStringIO.StringIO(u_data)
UnicodeEncodeError: 'ascii' codec cant encode character u'\u2603' in position 0: ordinal not in range(128)
>>> %timeit cStringIO.StringIO(b_data)
1000000 loops, best of 3: 448 ns per loop
>>> %timeit StringIO.StringIO(u_data)
1000000 loops, best of 3: 1.15 µs per loop
>>> %timeit StringIO.StringIO(b_data)
1000000 loops, best of 3: 1.19 µs per loop

关于python - 对 StringIO、StringIO 和 BytesIO 感到困惑，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37462075/

文章推荐： java - java可以运行编译的scala代码吗？

文章推荐： java - 当线程无法访问所有使用的堆时发现 Java 内存泄漏

文章推荐： java - 并行流、收集器和线程安全

文章推荐： java - 私有(private)内部类的默认构造函数有形参吗？

rust - 线程 'main'对 'Box'感到 panic
我正在尝试学习Rust。我正在阅读一本书online，该书实现了unix程序cat。现在，我试图读取作为像cargo run file1.txt file2.txt这样的参数传递的文件的内容，但是程序
haskell - 对类型索引 GADT 中的 forall 感到“有点”困惑
我在 GHC 8.0.1 中遇到了一个带有种类索引 (?) GADT 的奇怪情况，其中在类型与种类签名中引入 foralls 会产生不同的类型检查行为。考虑以下数据类型: {-# LANGUAGE
perl - 为什么我对 Perl 5.10、Mason 和 Apache 感到 panic ？
我正在使用 Perl 5.10 开发应用程序，HTML::Mason和 Apache 2.2。这是我第一次在大型项目中使用 Perl 5.10。我每隔一段时间就会出现奇怪的行为。应用程序因一个非常奇怪
multithreading - 使用rusoto使用rust AWS分段上传，对 'there is no reactor running …`感到 panic 的多线程(人造丝)
我正在尝试将文件上传到aws中的rust中，因为我使用的是 rusoto_s3 的s3 rust客户端，当这些部分从单个线程发送时，我设法使分段上传代码正常工作不是我想要的，我想上传大文件，并且希望能

IT老高

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 对 StringIO、StringIO 和 BytesIO 感到困惑