Python存储与读写二进制文件

转载作者：撒哈拉更新时间：2024-09-09 19:25:50

60

4

技术背景

一般情况下我们会选择使用明文形式来存储数据，如json、txt、csv等等。如果是需要压缩率较高的存储格式，还可以选择使用hdf5或者npz等格式。还有一种比较紧凑的数据存储格式，就是直接按照二进制格式存储。这种格式下，存储的数据之间没有间隔符，在没有压缩的情况下应该是体积最小的存储类型.

使用方法

在Python中，我们可以使用numpy.tofile()功能，直接将numpy数组类型存储到一个二进制文件中。读取的时候，虽然可以直接使用open(file_name, 'rb')来进行读取，但是为了适配大量IO的场景，这里我们使用内存映射mmap的形式来进行数据读取.

完整示例

如下是一个完整的示例代码，相关的功能直接用注释的形式在代码中标记:

import numpy as np
import mmap
import resource
# 获取页数据量大小（单位：字节）
PAGE_SIZE = resource.getpagesize()
# 定义单精度浮点数数据占用字节（单位：字节）
DATA_SIZE = 4
# 计算页存储数据数量（num_float32）
PAGE_FNUM = int(PAGE_SIZE/DATA_SIZE)
print ("The PAGE_SIZE is: {}".format(PAGE_SIZE))
print ("Corresponding float32 numbers should be: {}".format(PAGE_FNUM))
# 生成示例数据，使用PAGE_FNUM+4大小的数据量定义两页数据
tmp_arr = np.arange(PAGE_FNUM+4).astype(np.float32)
# 数据存储路径
tmp_file = '/tmp/tmp.dat'
# 将数组存储到二进制文件中
tmp_arr.tofile(tmp_file)
# 每次从二进制文件中读取4个数据
READ_NUM = 4
with open(tmp_file, 'rb') as file:
    # 第一页数据的内存映射
    mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=0)
    # 第一页数据的1、2、3、4位数据
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 第一页数据的5、6、7、8位数据
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 第二页数据的内存映射
    mm = mmap.mmap(file.fileno(), 0, access=mmap.ACCESS_READ, offset=PAGE_SIZE)
    # 第二页数据的1~4位数据
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 第二页数据的5~8位数据
    print (np.frombuffer(mm.read(DATA_SIZE*READ_NUM), dtype='<f4'))
    # 关闭内存映射
    mm.close()
# 退出文件IO

该脚本的输出结果为:

The PAGE_SIZE is: 4096
Corresponding float32 numbers should be: 1024
[0. 1. 2. 3.]
[4. 5. 6. 7.]
[1024. 1025. 1026. 1027.]
[]

结果解析

我们打印的第一个数据是页大小，这里显示是4096个字节。而一个单精度浮点数占4个字节，所以一页存了1024个单精度浮点数，也就是第二个打印输出的结果。由于我们定义的numpy数组是一个从0开始的递增数组，因此第一页数据的前8位数字就是从0到7。而第二页的数据是1024~1027一共4个浮点数，占16个字节。所以我们在第二页第二次使用numpy.frombuffer()去读取数据的时候，得到的是一个空的数组。此外我们可以查看一下这个二进制文件的大小:

In [1]: import os

In [2]: os.path.getsize('/tmp/tmp.dat')
Out[2]: 4112

一共是4112个字节，刚好是4096+16个字节.

总结概要

本文介绍了一种在Python中将Numpy数组转存为一个紧凑的二进制格式的文件，及其使用内存映射的形式进行读取的方案。一个二进制的数据流，不仅可以更加方便页形式的内存映射，相比于传统的Numpy单精度浮点数数组还有一个可哈希的特性。总体来说是一个对于高性能计算十分友好的存储格式，在cudaSPONGE中作为一个分子动力学模拟轨迹输出的格式使用.

版权声明

本文首发链接为：https://www.cnblogs.com/dechinphy/p/dat.html 。

作者ID：DechinPhy 。

更多原著文章：https://www.cnblogs.com/dechinphy/ 。

请博主喝咖啡：https://www.cnblogs.com/dechinphy/gallery/image/379634.html 。

最后此篇关于Python存储与读写二进制文件的文章就讲到这里了,如果你想了解更多关于Python存储与读写二进制文件的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

60

4

0

文章推荐：用Python实现阿拉伯数字转换成中国汉字

文章推荐： LeetCode题集-3-无重复字符的最长子串

文章推荐： java基础-线程（基础）的笔记

文章推荐：在stablediffussion中完美修复AI图片

MongoDB Catalina 读写
我用 chown 不行。 Bilals-MBP:~ $ sudo mkdir -p /data/db Password: mkdir: /data/db: Read-only file system
c++ - Qt和Arduino串行通信(读写)
我陷入了一个非常简单的问题。我正在尝试制作一个Qt GUI应用程序以从GUI控制我的Arduino(而不是从Arduino IDE的串行监视器控制它)。我能够使用QSerialPort write(
C++ COM口的打开、读写
我正在尝试使用 Win32 的 CreateFile 函数打开一个 COM 端口。我已经在 MSDN 以及几个论坛上阅读了有关如何执行此操作的文档，但无论我做什么，我仍然收到错误代码 #2(端口不存在
c++ - 用c++读写
我正在尝试使用系统调用 read() 和 write()。以下程序创建一个文件并将一些数据写入其中。这是代码.. int main() { int fd; open("stud
ios - Xcode中如何使用已有的数据库文件，读写？
我对 Xcode 和 sqlite 有点陌生。现在我有一个名为“mydb.db”的数据库文件，它已经有一些表和数据。我把它放在我的 mac 文件夹中，然后将它拖到“支持文件”下的 Xcode 项目中。
Python 读写 tty
背景:如果需要，请跳至问题部分我正在研究测试设备的前端。前端的目的是为了更容易编写长测试脚本。几乎只是让它们更易读和可写。设备将使用 Prologix GPIB-USB Controller 进行
Python文件常见操作实例分析【读写、遍历】
本文实例讲述了python文件常见操作。分享给大家供大家参考，具体如下： 1.文件是什么？文件是存储在外部介质上的数据或信息集合，程序中源程序、数据中保存的数据、图像中的像素数据等等；文件
multithreading - 原子交换(读写)操作的用例是什么？
C++0x 指定 std::atomic线程安全原子访问变量的模板。这个模板有一个成员函数 std::atomic::exchange原子地在“this”中存储一个新值并检索“this”的现有值。 W
vba - 读写 .ini 文件的推荐方式
VBA 中是否有任何方法可以读取和写入 INI 文件？我知道我可以使用； Open "C:\test.ini" For Input As #1 ...并解析数据。相反，我试图查看已有哪些工具可用。我
architecture - 读写 API，它们是独立的服务吗？
我最近在 GitHub 存储库 system-design-primer 上看到了系统设计示例，它显示了读/写 API。我正在尝试实现 this one 以进行练习。大纲是这样的。它分离了读写API
delphi - 读写 DEVMODE.dmColor
我在使用 DEVMODE 结构的 dmColor 字段时遇到问题。我的默认打印机是彩色打印机，如果我通过控制面板将打印机属性的颜色默认输出为黑白，则 DEVMODE.dmColor 字段始终返回 D
java - 读写 COM 端口？
我知道套接字等如何与 java/android 配合使用，但是如何使用 java 或 python 连接到桌面上的 COM 端口？您想使用地址吗？或者查找您想要的端口是否可用或者什么？我不知道该怎么
amazon-dynamodb - DynamoDB 读写
什么构成 DynamoDB 中的实际读取？它是读取表格中的每一行还是返回什么数据？这就是扫描如此昂贵的原因 - 您读取整个表格并为读取的每一行表格付费吗？能否将 ElasticCache (Me
java - 文件(读写)无法正确检测到换行符
我想用Java编写一个程序来检查src是否存在（如果不抛出FileNoot的话）并将src.txt的内容复制到des.txt 并在开头和结尾处打印两个文件的大小输出为： src.txt is in
c++ - 读写 float 组到文件
我在 C++ 中有一个 float 数组，我想将它保存到一个二进制文件中(以节省空间)，以便以后能够再次读取它。为此，我编写了以下代码来编写数组: float *zbuffer = new float
javascript - websocket javascript 读写
我试图为 websocket 创建一个 Read\Write 函数，但我遇到了一个问题...... var inarrivo = 0; var risposta = ""; function RDW_
c++ - 读写 QGraphicsScene 到二进制文件
在我的应用程序中是用 Qt 编写的，我有一个 QGraphicsScene。在这个 QgraphicsScene 中有一个图像和一些由用户绘制的项目。我想保存这个包含所有内容的 QgraphicsSc
c - 使用命名管道 C 读写
我正在编写一个程序，该程序应该无限期运行并保持变量的值。其他两个程序可以更改变量的值。我使用命名管道接收变量值并将其发送到外部程序。这是我的变量管理器代码。 manager.c: #includ
c - 读写 C 系统调用是否使用缓冲区？
我和一位老师谈过，他告诉我读写系统调用使用缓冲区，因为在你的系统规范中有一个变量控制你可以访问你想要读/写的设备的次数on，系统在他等待写入设备时使用buffer来存储数据。我在另一篇 Stack
C# 读写 TextFile 在中间结束
我运行一个方法，有三个部分，第 1 部分和第 3 部分都是“读取文本文件”，第二部分是将字符串保存到文本文件， // The Save Path is the text file's Path, u

首页

博学

6Ren·AI

商城