python - 加载速度 vs 内存 : how to efficiently load large arrays from h5 file-6ren

python - 加载速度 vs 内存 : how to efficiently load large arrays from h5 file

转载作者：行者123 更新时间：2023-12-04 09:03:46

31

4

我一直面临以下问题:我必须遍历 num_objects = 897对象，对于我必须使用的每一个对象 num_files = 2120 h5 文件。这些文件非常大，每个都是 1.48 GB，我感兴趣的内容是每个文件中包含的 3 个大小为 256 x 256 x 256 的浮点数组( v1 、 v2 和 v3 )。也就是说，循环看起来像:

for i in range(num_objects):
    ...
    for j in range(num_files):
       some operation with the three 256 x 256 x 256 arrays in each file

我目前加载它们的方法是在最内层循环中执行以下操作:

f = h5py.File('output_'+str(q)+'.h5','r')
key1 = np.array(f['key1'])
v1=key1[:,:,:,0]
v2=key2[:,:,:,1]
v3=key3[:,:,:,2]

上述每次为每个对象加载文件的选项显然非常慢。另一方面，一次加载所有文件并将它们导入字典会导致过度使用内存并且我的工作被终止。一些诊断:

上面的方法每个文件、每个对象需要 0.48 秒，因此总共只花 10.5 天(!)在这个操作上。

我尝试导出 key1 npz 文件，但实际上每个文件慢了 0.7 秒。

我导出了 v1 , v2和 v3单独将每个文件转换为 npz 文件(即每个 h5 文件有 3 个 npz 文件)，但这总共只为我节省了 1.5 天。

有没有人有其他想法/建议我可以尝试快速并且同时不受过多内存使用的限制？

最佳答案

如果我明白，你有 2120 个 .h5 文件。你只读取数据集f['key1']中的3个数组吗？每个文件？ (或者是否有其他数据集？)如果您只/总是阅读 f['key1'] ，这是您无法编程的瓶颈。使用 SSD 会有所帮助(因为 I/O 比 HDD 快)。否则，您将不得不重新组织您的数据。您系统上的 RAM 量将决定您可以同时读取的数组数量。你有多少内存？
您可能会通过小的代码更改获得一点速度。 v1=key1[:,:,:,0]以数组形式返回 v1(v2 和 v3 相同)。无需读取数据集 f['key1']成一个数组。这样做会使您的内存占用加倍。 (顺便说一句，是否有理由将您的数组转换为字典？)
下面的过程仅通过切片 v1,v2,v3 创建了 3 个数组来自 h5py f['key1']目的。它会将每个循环的内存占用减少 50%。

f = h5py.File('output_'+str(q)+'.h5','r')
key1 = f['key1'] 
## key1 is returned as a h5py dataset OBJECT, not an array
v1=key1[:,:,:,0]
v2=key2[:,:,:,1]
v3=key3[:,:,:,2]

在 HDF5 方面，由于您总是切出最后一个轴，因此您的块参数可能会改善 I/O。但是，如果要更改块形状，则必须重新创建 .h5 文件。因此，这可能不会节省时间(至少在短期内)。

关于python - 加载速度 vs 内存 : how to efficiently load large arrays from h5 file，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63502513/

31

4

0

文章推荐： regex - 使用可选参数重写规则以在 .htaccess 中进行重定向

文章推荐： vaex - 将 vaex 数据框中的列从 String 转换为 Float 或 int

文章推荐： javascript - setTimeout 函数触发回调两次

文章推荐： php - WordPress中的自定义简码

jquery - .load 与 .on ("load")
我正在 div 中加载一个 php 页面，该页面采用发布的变量来显示正确的内容。它的工作原理是这样的: $(".mainArea").load("page.php", {'folder': 'a'})
aws-load-balancer - 何时使用 Application Load Balancer 和 Network Load Balancer
我是 AWS 新手。我开始学习 ALB 和 NLB。我知道 ALB 在第 7 层协议(protocol)中工作，而 NLB 在第 4 层协议(protocol)中工作。谁能解释一下ALB和NLB的实
javascript - filter(loaded =>!loaded) 是做什么的？
这是来自 this Article . filter(loaded => !loaded) 有什么作用？我没有在任何地方看到该变量的定义。我明白这个方法的目的是什么，只是不是那一行。 canActi
c# - 形成 Load() 或不形成 Load()
我应该在 Constructor 还是 FormLoad() 中加载子表单？我有一些代码调用在控件中嵌入表单的自定义类。我最初是在 Constructor 之外声明我的子窗体，然后在 FormLoa
Python中json.load()和json.loads()有哪些区别
目录 1、图解 2、json.loads()用法 3、json.load()用法 4、此外还有一种json.dumps 语法
load - iPhone的PhoneGap : problem loading external URL
我正在使用 PhoneGap 为 iPad 编写应用程序，我想在不触发 Safari 或使用 ChildBrowser 等内部 Web 浏览器的情况下加载外部 URL。我正在使用 PhoneGap
server-load - 每分钟有多少请求被视为 'Heavy Load' ？ (近似)
人们经常在他们的(与优化和性能相关的)问题和答案中谈论“重载”。我试图在典型服务器上的常规 Web 应用程序的上下文中量化这一点(以 SO 及其相当小的基础设施为例)，假设它们立即返回(以简化和提高
events - this.Loaded += (s, e) => this.loaded = true;?
有人可以写这段代码吗: this.Loaded += (s, e) => this.loaded = true; 分成几行代码以便我可以追溯其含义？在我的代码示例中没有 s 或 e 吗？最佳答案
ajax - jQuery .load() 函数在 .load() 完成后中断模态打开
我正在使用 jQuery 的 .load()方法和Loading Page Fragments 。以下是我当前的代码: $("#submit").click(function() { $("#
javascript - jQuery.load() : loading a div when click
我想实现的是，当单击图像时，在该图像所在的 div 中，加载了一个包含来自另一个 .html 的其他内容的 div，但我无法完成。如果我这样做，下面的代码将完美运行: $('#windows_lin
android - QSql数据库 : Driver not loaded Driver not loaded
我使用 qt 开发了一个 c++ 库。在本文中，我使用 QSqlDatabase 从 SQLite 数据库中查询信息。注意:我的库在 qt 桌面应用程序中运行良好(我在 Linux 上开发)。现在我
jquery - 使某些方法适用于 $(window).on ("load", function () { before load
演示:http://jsfiddle.net/FyrRm/1/ 当我们向下滚动时，您会注意到...在滚动到文章标题到之后我正在展示一个共享小部件。我正在使用 $(window).on("load"
html - 如何修复 'Image not loading when loaded in mobile' ？
我在 html(PC) 中使用的图像正确加载，我使用了 img 标签。我已将此文件连同图像一起保存并发送到我的手机，但它不会加载到手机上。我对图像大小或任何东西没有任何问题。我认为它与图像位置有关。
jQuery.load() 包装器来管理多个请求和 ".loading"CSS 类
我将 .load() 广泛用于 AJAX 内容。很棒，但如果它做得更多一点，我会喜欢它: 如果为了响应用户操作，我多次调用同一个 div 上的 .load()，我可能会在 div 中得到错误的数据。当
ios - 方法【load】是否需要调用【super load】
我知道很多方法需要调用它的父类(super class)方法，有些方法不需要，我正在寻找关于方法调配的东西。它在加载方法中初始化，并且在教程中没有[super load]。我想知道是不是错了，还是
Can't load audio on pygame - Pygame error when loading audio: Failed loading libvorbisfile-3.dll: The specified module could not be found(无法在PYGAME上加载音频-加载音频时出现错误：加载libvorBisfile-3.dll失败：找不到指定的模块)
几个月来，我一直在使用pyGame 2.0.1。今天，我升级到最新版本(2.1.2)后，在尝试加载音频文件时开始出现以下错误：。到目前为止我尝试过的东西：。我使用的是Windows 10、Python
Angular 6 : Convert eager loading to lazy loading
我有一个完整的 angular 应用程序，它使用预先加载。我想将其转换为延迟加载，但是因为我对所有路线都有保护，而且所有路线都是到一条 protected 主路线的子路线，我不知道是否可以做到这一点
reactjs - react : Show loading spinner while images load
我有一个 React 应用程序，它在 useEffect 中调用我的 API，返回一个用作 imy 图像 src 的 URL 列表。我正在使用 react-loader-spinner 在加载图像时
javascript - 逐步加载幻灯片: Some images don't load or only load partially and quit
我正在使用 Slick.js 逐步加载我的图像我注意到有些图像要么部分加载，要么根本没有加载。例如，在this site上，有两个画廊:建筑和设计(在导航中)。当用户单击任一图像时，他们会看到该图库
javascript - 警告 : Tried to load angular more than once during page load
我在我的一个项目中收到此警告。这在调用我的后端 api 时会导致问题，因为它调用了 api 两次。我已经尝试过之前在论坛上发布的关于相同查询的解决方案，但我无法解决这个问题。如果有人能帮助我解决这个问

首页

博学

6Ren·AI

商城

python - 加载速度 vs 内存 : how to efficiently load large arrays from h5 file