- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在解压缩具有许多不同数据类型的大型二进制文件 (~1GB)。我正处于创建循环以隐藏每个字节的早期阶段。我一直在使用 struct.unpack,但最近认为如果我使用 numpy 它会运行得更快。然而,切换到 numpy 已经减慢了我的程序。我试过:
struct.unpack
np.fromfile
np.frombuffer
np.ndarray
注意:在 np.fromfile 方法中,我将文件保持打开状态,不将其加载到内存中并进行搜索
1)
with open(file="file_loc" , mode='rb') as file:
RAW = file.read()
byte=0
len = len(RAW)
while( byte < len):
header = struct.unpack(">HHIH", RAW[byte:(byte+10)])
size = header[1]
loc = str(header[3])
data[loc] = struct.unpack(">B", RAW[byte+10:byte+size-10)
byte+=size
2)
dt=('>u2,>u2,>u4,>u2')
with open(file="file_loc" , mode='rb') as RAW:
same loop as above:
header = np.fromfile(RAW[byte:byte+10], dtype=dt, count=1)[0]
data = np.fromfile(RAW[byte+10:byte+size-10], dtype=">u1", count=size-10)
3)
dt=('>u2,>u2,>u4,>u2')
with open(file="file_loc" , mode='rb') as file:
RAW = file.read()
same loop:
header = np.ndarray(buffer=RAW[byte:byte+10], dtype=dt_header, shape= 1)[0]
data = np.ndarray(buffer=RAW[byte+10:byte+size-10], dtype=">u1", shape=size-10)
4) 除了使用 np.frombuffer() 与 3 几乎相同
所有 numpy 实现的处理速度大约是 struct.unpack 方法的一半,这不是我所期望的。
如果我可以做些什么来提高性能,请告诉我。
另外,我只是凭内存输入这个,所以它可能有一些错误。
最佳答案
我没有太多地使用 struct
,但是在您的代码和文档之间,我让它在存储整数数组的缓冲区上工作。
从 numpy
数组创建一个字节数组/字符串。
In [81]: arr = np.arange(1000)
In [82]: barr = arr.tobytes()
In [83]: type(barr)
Out[83]: bytes
In [84]: len(barr)
Out[84]: 8000
反过来就是tobytes
:
In [85]: x = np.frombuffer(barr, dtype=int)
In [86]: x[:10]
Out[86]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
In [87]: np.allclose(x,arr)
Out[87]: True
ndarray
也可以,但通常不鼓励直接使用此构造函数:
In [88]: x = np.ndarray(buffer=barr, dtype=int, shape=(1000,))
In [89]: np.allclose(x,arr)
Out[89]: True
要使用struct
,我需要创建一个包含长度“1000 long”的格式:
In [90]: tup = struct.unpack('1000l', barr)
In [91]: len(tup)
Out[91]: 1000
In [92]: tup[:10]
Out[92]: (0, 1, 2, 3, 4, 5, 6, 7, 8, 9)
In [93]: np.allclose(np.array(tup),arr)
Out[93]: True
现在我们已经建立了读取缓冲区的等效方法,做一些计时:
In [94]: timeit x = np.frombuffer(barr, dtype=int)
617 ns ± 0.806 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [95]: timeit x = np.ndarray(buffer=barr, dtype=int, shape=(1000,))
1.11 µs ± 1.76 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)
In [96]: timeit tup = struct.unpack('1000l', barr)
19 µs ± 38.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
In [97]: timeit tup = np.array(struct.unpack('1000l', barr))
87.5 µs ± 25.1 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
frombuffer
看起来不错。
你的 struct.unpack
循环让我很困惑。我不认为它与 frombuffer
做同样的事情。但是就像一开始所说的那样,我没有太多地使用 struct
。
关于python - 使用 struct.unpack VS np.frombuffer VS np.ndarray VS np.fromfile 解压二进制文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54679949/
我有一个数组 items[] items[] 中的每一项都是一个结构体。 item 有键 id、date、value(即 item.id、item.date、item.value) 我想使用 Stru
我想存储 100 名员工。 RollNo,姓名,工资,时间(各种数据,我无法在这里解释,但你可以看下面的代码片段来理解 main() { struct day { int hour
这个问题在这里已经有了答案: storage size of ‘names’ isn’t known (3 个答案) 关闭 5 年前。 我正在尝试蓝牙编程,遇到了这个我不明白的问题。基本上,当我使用
这是一个奇怪的事情: 我有一个结构,它包含指向相同类型结构的指针和指向其他类型结构的指针,以及一些其他值。 struct animal { struct animal * father;
我有一个结构定义如下(名称不同) struct str1 { int field1; struct str2; } 我在一个函数中有一个*str1。我想要一个指向 str2 的指针。 所以
DISK_DETECTION_INFO is defined as有什么原因吗? typedef struct _DISK_DETECTION_INFO { DWORD Size
我正在尝试打包一个字符串和一个字符串的长度。 fmt = '
我在创建结构时遇到问题。 我的结构: public struct Device: Codable { let data: DeviceData let meta: Meta? } pu
struct Item { var name:String? var type:String? var value:Int? var tag:Int? } ... ..
// NewReaderSize returns a new Reader whose buffer has at least the specified 43 // size. If the ar
这个问题在这里已经有了答案: Sorting a vector of custom objects (14 个答案) 关闭 3 年前。 在下面的 C++ 片段中, 如何基于 TwoInts 结构中的
#include struct Header { unsigned long long int alignment; }; int main(void) { struct Heade
我有一个目前看起来像这样的结构(缩写为仅显示基本部分): typedef struct { uint32_t baudrate; ... some other internally u
对此没有太多解释,这就是我所拥有的: public struct PACKET_HEADER { public string computerIp; publi
我有以下代码: struct MyStruct{ data: &'a str, } fn get(S: &'a MyStruct) -> &'a str{ S.data } fn se
struct S1 { char c; int i; }; struct S3 { char c1; struct S1 s; double c2; }; 我正
我有一个名为 Parameter 的协议(protocol): protocol Parameter { var name: String { get } var unit: Unit
有 2 个 struct 定义 A 和 A。我知道 struct A 可以包含指向 struct A 的 POINTER 但我不明白为什么 struct A 不能包含struct A(不是指针) 最佳
我有以下代码: struct MyStruct{ data: &'a str, } fn get(S: &'a MyStruct) -> &'a str{ S.data } fn se
为了说明这一点,这里有一个小的不可变结构和一个更新它的函数: (struct timeseries (variable observations) #:transparent) (define (ad
我是一名优秀的程序员,十分优秀!