gpt4 book ai didi

python - 如何在 Python 3 中将文本流编码为字节流?

转载 作者:太空宇宙 更新时间:2023-11-03 11:16:05 26 4
gpt4 key购买 nike

将字节流解码为文本流很容易:

import io
f = io.TextIOWrapper(io.BytesIO(b'Test\nTest\n'), 'utf-8')
f.readline()

在这个例子中,io.BytesIO(b'Test\nTest\n') 是一个字节流,f 是一个文本流。

我想做的恰恰相反。给定文本流或类文件对象,我想将其编码为字节流或类文件对象而不处理整个流

这是我到目前为止尝试过的:

import io, codecs

f = codecs.getreader('utf-8')(io.StringIO('Test\nTest\n'))
f.readline()
# TypeError: can't concat str to bytes

f = codecs.EncodedFile(io.StringIO('Test\nTest\n'), 'utf-8')
f.readline()
# TypeError: can't concat str to bytes

f = codecs.StreamRecoder(io.StringIO('Test\nTest\n'), None, None,
codecs.getreader('utf-8'), codecs.getwriter('utf-8'))
# TypeError: can't concat str to bytes

f = codecs.encode(io.StringIO('Test\nTest\n'), 'utf-8')
# TypeError: utf_8_encode() argument 1 must be str, not _io.StringIO

f = io.TextIOWrapper(io.StringIO('Test\nTest\n'), 'utf-8')
f.readline()
# TypeError: underlying read() should have returned a bytes-like object, not 'str'

f = codecs.iterencode(io.StringIO('Test\nTest\n'), 'utf-8')
next(f)
# This works, but it's an iterator instead of a file-like object or stream.

f = io.BytesIO(io.StringIO('Test\nTest\n').getvalue().encode('utf-8'))
f.readline()
# This works, but I'm reading the whole stream before converting it.

我正在使用 Python 3.7

最佳答案

你可以很容易地自己写这个;您只需要决定要如何进行缓冲。

例如:

class BytesIOWrapper(io.RawIOBase):
def __init__(self, file, encoding='utf-8', errors='strict'):
self.file, self.encoding, self.errors = file, encoding, errors
self.buf = b''
def readinto(self, buf):
if not self.buf:
self.buf = self.file.read(4096).encode(self.encoding, self.errors)
if not self.buf:
return 0
length = min(len(buf), len(self.buf))
buf[:length] = self.buf[:length]
self.buf = self.buf[length:]
return length
def readable():
return True

我认为这正是您所要求的。

>>> f = BytesIOWrapper(io.StringIO("Test\nTest\n"))
>>> f.readline()
b'Test\n'
>>> f.readline()
b'Test\n'
>>> f.readline()
b''

如果您想变得更聪明,您可能想要包装一个 codecs.iterencode 而不是一次缓冲 4K。或者,由于我们使用的是缓冲区,您可能希望创建一个 BufferedIOBase 而不是 RawIOBase。此外,一个名为 BytesIOWrapper 的类可能应该处理 write,但这是简单的部分。困难的部分是实现 seek/tell,因为您不能在 TextIOBase 中任意搜索;寻找开始和结束非常容易;另一方面,寻找已知的先前位置是困难的(除非您依赖于 TextIOBase.tell 返回一个字节位置——它不能保证这样做,而且,虽然 TextIOWrapper 有,StringIO 没有……)。

无论如何,我认为这是如何编写最复杂的 io 类的最简单的演示。

关于python - 如何在 Python 3 中将文本流编码为字节流?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51585110/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com