gpt4 book ai didi

Python bytearray 与字节列表

转载 作者:太空宇宙 更新时间:2023-11-04 03:58:11 25 4
gpt4 key购买 nike

当整个字符串的长度事先已知时,我试图通过连接多个较短的字符串来找出创建长字节字符串(或 bytearray)的最有效方法。我制作了这个脚本并得出了这些结果:

import time

MSG = b'test message'
COUNT = 30000

def bytes_list_test():
tStart = time.clock()
l = []
for i in range(COUNT):
l.append(MSG)
bs = b''.join(l)
print('byte list time:', time.clock() - tStart)

def bytearray_test():
tStart = time.clock()
ba = bytearray()
for i in range(COUNT):
for c in MSG:
ba.append(c)
print('array time:', time.clock() - tStart)

def initialized_bytearray_test():
tStart = time.clock()
ba = bytearray([0x00]*len(MSG)*COUNT)
for i in range(COUNT):
ba[i*len(MSG):i*len(MSG)+len(MSG)] = MSG
print('initialized array time:', time.clock() - tStart)

bytes_list_test()
bytearray_test()
initialized_bytearray_test()

结果:

byte list time:         0.0076534920117410365
array time: 0.08107178658246994
initialized array time: 0.08843219671325642

几个问题:

1) 创建字节列表并使用 join() 方法是结果所暗示的方式吗?

2) 为什么使用字节列表比使用似乎专为此类事物设计的字节数组快得多?

3) 你会认为初始化数组会比未初始化数组更快,因为初始化数组不必调整大小(请注意,它偶尔会表现得更好,但幅度不大且不一致)。不是因为切片操作更快吗?

最佳答案

第一个函数创建指向同一对象的指针列表(不是字节列表),然后 join 将执行一次内存分配和 COUNT 调用 memcpy.

您可以通过删除临时列表并使用 itertools.repeat 来加快第一个函数的速度(在我的测试中是 5 倍):

def bytes_list_test_opt():  
tStart = time.clock()
bs = b''.join(itertools.repeat(MSG, COUNT))
print('byte list opt time:', time.clock() - tStart)

或者,在这种特殊情况下,只需使用 bytes 对象的 * 运算符,它就是这样做的:

    bs = MSG*COUNT

第二个函数重复遍历 MSG,逐字节存储数据,并且随着字节数组的增长必须重复重新分配内存。

通过将迭代替换为对 extend 的单个调用,您可以使第二个函数几乎与原始(未优化的)第一个函数一样快:

def bytearray_test_opt():
tStart = time.clock()
ba = bytearray()
for i in range(COUNT):
ba.extend(MSG)
print('array opt time:', time.clock() - tStart)

此修改后,第二个函数将比第一个函数慢,这仅仅是因为额外的重新分配(在我的测试中约为 15%)。

第三个函数使用 bytearray 的切片赋值,它接受可迭代的并且似乎在进行相同的逐字节迭代,但没有意识到它们可以只是 memcpy字节到位。这看起来像是标准库中可以修复的缺陷。

正如您从之前的优化中看到的,与逐字节复制相比,分配所花费的时间非常少,因此预分配在这里没有明显的影响。您可以通过减少计算来节省一些时间,但这也无济于事:

def initialized_bytearray_test_opt():
tStart = time.clock()
L = len(MSG)
ba = bytearray(L*COUNT)
ofs = 0
for i in range(COUNT):
ba[ofs : ofs+L] = MSG
ofs += L
print('initialized array opt time:', time.clock() - tStart)

我机器的最终计时:

byte list time: 0.004823000000000001
byte list opt time: 0.0008649999999999977
array time: 0.043324
array opt time: 0.005505999999999997
initialized array time: 0.05936899999999999
initialized array opt time: 0.040164000000000005

附言使用 timeit 模块来执行这样的测量,它提供了更高的准确性。

关于Python bytearray 与字节列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17162609/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com