gpt4 book ai didi

python - 作为数据库的 Pandas HDF5

转载 作者:太空狗 更新时间:2023-10-29 17:41:53 25 4
gpt4 key购买 nike

去年我一直在使用 python pandas,它的性能和功能给我留下了深刻的印象,但是 pandas 还不是数据库。我最近一直在思考如何将 pandas 的分析能力集成到平面 HDF5 文件数据库中。不幸的是,HDF5 并不是为处理本地并发而设计的。

我一直在寻找锁定系统、分布式任务队列、并行 HDF5、平面文件数据库管理器或多处理方面的灵感,但我仍然不清楚从哪里开始。

最终,我想要一个 RESTful API 来与 HDF5 文件交互以创建、检索、更新和删除数据。一个可能的用例是构建一个时间序列存储,传感器可以在其中写入数据,分析服务可以在其上实现。

任何关于可能的路径、现有的类似项目或关于整个想法的便利/不便的任何想法都将不胜感激。

PD:我知道我可以使用 SQL/NoSQL 数据库来存储数据,但我想使用 HDF5,因为在检索大量数据时我还没有发现任何更快的方法。

最佳答案

HDF5 适用于并发只读访问。
对于并发写访问,您要么必须使用 parallel HDF5或者有一个工作进程负责写入 HDF5 存储。

有一些努力将 HDF5 与 HDF Group 本身的 RESTful API 相结合。参见 herehere更多细节。我不确定它有多成熟。

我建议使用混合方法并通过 RESTful API 公开它。
您可以将元信息存储在 SQL/NoSQL 数据库中,并将原始数据(时间序列数据)保存在一个或多个 HDF5 文件中。

有一个公共(public) REST API 可以访问数据,用户不必关心幕后发生的事情。
这也是我们存储生物信息所采用的方法。

关于python - 作为数据库的 Pandas HDF5,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22522551/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com