python - h5py:如何组织 HDF5 文件以有效读取混合数据类型对象-6ren

python - h5py:如何组织 HDF5 文件以有效读取混合数据类型对象

转载作者：行者123 更新时间：2023-12-01 06:40:22

25

4

我目前正在使用 python3.x 并使用 h5py 库来写入/读取 HDF5 文件。

假设我有大量包含混合数据类型属性的元素。我想将它们存储在 HDF5 文件中，以便可以通过索引尽可能高效地读取单个元素。

举个例子，假设我有以下数据:

item_1 = {'string_name': 'Paul', 'float_height': 5.9, 'int_age':27, 'numpy_data': np.array([5.4, 6.7, 8.8])}
item_2 = {'string_name': 'John', 'float_height': 5.7, 'int_age':31, 'numpy_data': np.array([3.1, 58.4, 66.4])}
...
item_1000000 = {'string_name': 'Anna', 'float_height': 6.1, 'int_age':33, 'numpy_data': np.array([4.7, 5.1, 4.2])}

我发现的最简单的解决方案是将每个属性存储在单独的数组中，然后将每个数组单独存储在 HDF5 文件中。

string_names = ['Paul', 'John', ... , 'Anna']
float_heights = [5.9, 5.7, ... , 6.1]
int_ages = [27, 31, ... , 33]
numpy_data = big_numpy_array_of_shape_1000000_by_3

然后，作为示例，要检索第三个元素，我必须读取四个数组中每个数组的索引“2”处的元素。

这个解决方案工作得很好，但我猜测这是一个非常低效的解决方案，因为需要四个读取操作来检索每个元素。

有什么建议吗？

最佳答案

正如 @hpaulj 指出的，关键是在创建数据集时创建记录数组(和/或数据类型)和引用。有很多方法可以加载数据。我使用您的列表数据(如下)创建了一个示例，其中显示了 2 个最简单的(恕我直言)。阅读所有方法的引用。我不确定你是否可以从字典中加载。我确信只要有足够的 Python 和 NumPy 魔力，这是可能的。

import h5py
import numpy as np

string_names = ['Paul', 'John', 'Anna']
float_heights = [5.9, 5.7,  6.1]
int_ages = [27, 31, 33]
numpy_data = [ np.array([5.4, 6.7, 8.8]), 
               np.array([3.1, 58.4, 66.4]),
               np.array([4.7, 5.1, 4.2])  ] 

# Create empty record array with 3 rows
ds_dtype = [('name','S50'), ('height',float), ('ages',int), ('numpy_data', float, (3,) ) ]
ds_arr = np.recarray((3,),dtype=ds_dtype)
# load list data to record array by field name
ds_arr['name'] = np.asarray(string_names)
ds_arr['height'] = np.asarray(float_heights)
ds_arr['ages'] = np.asarray(int_ages)
ds_arr['numpy_data'] = np.asarray(numpy_data)

with h5py.File('SO_59483094.h5', 'w') as h5f:
# load data to dataset my_ds1 using recarray
    dset = h5f.create_dataset('my_ds1', data=ds_arr, maxshape=(None) )
# load data to dataset my_ds2 by lists/field names
    dset = h5f.create_dataset('my_ds2', dtype=ds_dtype, shape=(100,), maxshape=(None) )
    dset['name',0:3] = np.asarray(string_names)
    dset['height',0:3] = np.asarray(float_heights)
    dset['ages',0:3] = np.asarray(int_ages)
    dset['numpy_data',0:3] = np.asarray(numpy_data)

关于python - h5py:如何组织 HDF5 文件以有效读取混合数据类型对象，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59483094/

25

4

0

文章推荐： jquery - 这个简单的 jQuery 有什么问题吗？

文章推荐： r - 在 facet_wrap 图中添加 "floating"轴标签

文章推荐： jQuery:.each 函数的问题

文章推荐： jquery - 当下拉列表选定值更改时隐藏 div

Django项目层次结构/组织
我是 Django 新手并开始了一个项目，我想以正确的方式去做。我想知道您认为组织项目的最佳实践是什么。以下是我的一些问题: 如何将静态资源与 Python 代码分开，以免浪费时间通过 Djang
Javascript原型(prototype)组织
通过这个组织，是否可以引用“id”属性？ function house(id) { this.id = id } house.prototype.buy = function() { }
Java Swing 组织
我的任务是“识别并修复任何错误”。这张取自 Java 教科书的图片显示了 Swing 结构的组织。这对我来说很好，我没有发现任何问题。谁能解释一下？ JPanel 应该放在 JComponent 之
mysql - 组织 `where` 使其更快
重要的事情是否可以确定 WHERE 条件的最佳顺序以使其更快？例如，我有一个包含 6 个条件的查询。一些简单，另一些带有子查询或函数。我的想法是对查询进行概要分析，以确定条件语句 true 的常见程
文件系统上的 C++ 组织
我有 Java/AS3/Javascript 背景，我的所有类都组织成包，以帮助表示它们的功能。在开始一个 C++ 项目时，我试图以几乎相同的方式模仿这个文件系统结构，但我一直遇到包含问题。目前我
python - 如何更改主页上的特色组/组织？
我正在使用 CKAN 作为开放数据门户。我已经完成了 CKAN 实例的设置并添加了数据集、组和组织。主页上有一个特色组和一个特色组织框。如何在主页上显示我想要的组和组织。如何在主页上更改这些特色组
Objective-c类设计/组织
我已经创建了我的第一个 iPhone 应用程序，它可以在表格 View 中显示类似类型的音轨。用户可以使用类似 ipod 的控件来播放音轨，这些控件可以流式传输 mp3。我的所有代码都在两个主要类中
JavaScript 组织 |带模块的模块模式
我将我的代码组织成 20-60 行模块，通常采用模块模式。我想要一个结构良好的面向对象的 JavaScript 库。这是最好的方法吗？代码已经过测试并且有效。我喜欢它，因为程序员可以从库中提取模块
javascript - 提高事件密集型防暴应用程序的代码质量/组织
我正在使用 riot.js 和 jquery 构建一个应用程序。一切都按预期工作，但是随着代码的增长，我也担心在代码中随机/意外的地方触发和处理事件 (.trigger/.on) 对保持我的代码有条理
多项目团队的 Git 组织
这是另一个 GIT 新手。我想在我们的项目中使用 GIT。团队不熟悉 GIT。这些项目基本上由一些通用项目(*)和一些应用项目组成。应用程序正在使用公地，公地也可以使用其他公地。通过“使用”我的
github 组织、存储库和用户访问
例如，考虑一个组织有一个包含两个分支的存储库的情况，master 和 1.0.0.1。是否可以让团队对 master 具有只读访问权限，而对分支 (1.0.0.1) 具有读写访问权限？最佳答案自
CSS 组织/结构
我一直致力于寻找组织 CSS 代码的最佳方式，尤其是在大型网站上。我对编写风格不太感兴趣，而对人们如何构建和管理他们的代码更感兴趣。我一直在遵循这个结构，我觉得它在可维护性方面工作得很好，但我想听取
postman - 组织 postman 托收的技巧？
我们正在扩展到一个大型微服务构建，并通过 postman 完成更多测试(现场验证、错误测试等)。好奇...您的团队如何组织大量 API 的集合？ (按 API、按测试类型、按发布等)从一个团队传递到另
java - 组织 K 内所有元素所需的最小交换
我最近遇到了这个编码面试问题，但似乎找不到答案。这是问题。给定一个整数数组，编写一个函数，返回组织数组所需的最小交换，使得相邻元素的绝对差都小于或等于 K。交换可以是任意两个数组元素，不一定是相邻的
javascript - Angularjs 组织/结构化状态
我有 100 多页。所有页面都使用不同的模板。目前，我有一长串 .state('page.html').state('page2.html') 等。10-15 页后，我认为这变得不可读/难以管理。
Grails:组织 i18n 包
我看下grails-app/i18n有一吨messages*.properties捆绑。我想将我的应用程序国际化，但每页有 1 个“捆绑集”。我所说的包集是指包含相同文本但用于不同语言的一组包/属性文
gpu - 组织 CUDA 内核
我正在编写一个非常非常长的 CUDA 内核，它对人类的可读性来说非常糟糕。有什么方法可以用内核外部的功能组织 CUDA 内核吗？示例: __global__ void CUDA_Kernel(int*
outlook - 在Outlook外部保存/组织/搜索Outlook电子邮件
我的公司要求我将Outlook用于我的电子邮件。 Outlook几乎不执行我想做的任何事情，这让我感到非常沮丧。 (我并不是要在这里发动一场火焰大战，它必须完全执行数千名CEO想要做的事情，但我不是C
javascript - 组织 javascript 应用程序的最佳方式
我一直在尝试一些不同的方法来组织我的 javascript 应用程序中的代码，我想知道哪种方法最合适。第一个例子: var Application = { init: function()
Angular 模型和接口(interface)组织
Angular 样式指南包含有关在应用程序中使用类和接口(interface)的最佳实践的信息。但它没有任何关于如何组织我的接口(interface)和模型类的信息。有一个问题:关于文件和类的组织有

首页

博学

6Ren·AI

商城

python - h5py:如何组织 HDF5 文件以有效读取混合数据类型对象