- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在寻找一个好的数据库解决方案来存储大量(约 100 GB 到数 TB)的科学数据。理想情况下,它能够处理更大量的数据。
我的数据文件是“图像”,一个约 400 万个条目数组(1000x1000x3 整数 + 1000x1000 个 float ),加上每个图像约 50-100 个条目的相关元数据。元数据是分层存储的。图像将被组织到一个或多个“文件夹”(或“项目”)中,这些文件夹本身可以包含其他文件夹。一切都有所有者等。
我需要主要根据元数据在一个或多个文件夹中搜索 100-10,000 张图像。然后,我可能需要从图像中提取切片——如果我只需要其中的一小部分,我真的不想加载所有数据。图像应以压缩格式存储。
编辑:需要强调的是我缺乏统一的数据。例如,图像是未知维度的 float 或整数,通常有 10^5-10^6 个条目,并且每个图像的元数据数量可能会有所不同。跨图像搜索元数据当然仅限于具有相同键的那些。
我目前的解决方案不是很好,是混合使用数据库。首先,我正在使用一个 SQL 数据库(现在是 Django + MySQL)来处理“文件夹”、所有者,并且每个图像都有一个记录,但没有它的数据。我也可能为元数据创建记录。其次,我使用 PyTables 以 hdf5 格式存储图像和元数据,并将其视为数据库。这解决了切片和压缩问题,并允许我分层存储元数据,但 PyTables 似乎没有可扩展性,并且远不如商业数据库发达。 (它不是为多用户环境制作的:我在写我自己的锁!,这是一个不好的迹象。)
我不是铁杆程序员,因此强烈推荐标准数据库解决方案。我的“优化”肯定会包括维护和编程成本。谁能推荐最喜欢的数据库解决方案或架构?关于关系、分层和其他的想法?
选项可能是 SciDB(不常见,可能不错)、SQL(听说它对这些应用程序不好,也许是 PostgreSQL?)和 HBase(实际上,我对此一无所知)。我觉得在科学界,尤其是天文学界,一定有好的解决方案,但大型项目似乎需要一个认真的团队来构建和维护。
我很乐意提供更多信息。
最佳答案
您是否以 HDF5 格式存储数据?由于您已经提到您不愿意加载所有数据,您可能不太喜欢 SciDB、MonetDB 或 RasDaMan 等数组数据库选项。将原始科学格式的大数据加载到数据库中非常痛苦,而且通常还需要一些额外的编程工作。
可以查看这篇论文:Supporting a Light-Weight Data Management Layer over HDF5 .这项工作提出直接通过 HDF5 操作 SQL。
关于python - 哪个数据库用于科学数据(可变大小的图像+元数据搜索),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11324928/
这个问题在这里已经有了答案: C sizeof a passed array [duplicate] (7 个回答) 8年前关闭。 在一个函数中,我声明了一个数组: int char_count_ar
简而言之,文件系统如何与 block 设备通信? 最佳答案 我对 block 大小不太了解。我认为 ext4(Linux)的文件系统的 block 大小是 4KB,考虑到现代处理器的页面大小(4KB)
我知道 tinyint(1) 和 tinyint(2) 具有相同的存储空间范围。 唯一的区别是显示宽度不同。这是否意味着 tinyint(1) 将存储所有类型的整数但只正确显示 0 到 9 的范围?而
今晚我已经研究了以下代码几个小时,但我只是摸不着头脑。 当使用函数从标准输入填充数组时,我不断收到“大小 8 的无效写入”和“大小 8 的无效读取”。 如有任何帮助,我们将不胜感激...我知道 Sta
我有一个 valgrind 错误,我不知道如何摆脱它们: ==5685== Invalid read of size 8 ==5685== at 0x4008A1: main (in /home
我对 Hadoop 的概念有点困惑。 Hadoop block 大小、拆分大小和 block 大小 之间有什么区别? 提前致谢。 最佳答案 block 大小和 block 大小相同。 拆分大小 可能与
我想不出一个好的标题,所以希望可以。 我正在做的是创建一个离线 HTML5 webapp。 “出于某些原因”我不希望将某些文件放在缓存 list 中,而是希望将内容放在 localStorage 中。
无法将 xamarin apk 大小减少到 80 MB 以下,已执行以下操作: 启用混淆器 配置:发布 平台:事件(任何 CPU)。 启用 Multi-Dex:true 启用开发人员检测(调试和分析)
我正在开发一个程序,需要将大量 csv 文件(数千个)加载到数组中。 csv 文件的尺寸为 45x100,我想创建一个尺寸为 nx45x100 的 3-d 数组。目前,我使用 pd.read_csv(
Hello World 示例的 React Native APK 大小约为 20M (in recent versions),因为支持不同的硬件架构(ARMv7、ARMv8、X86 等),而同一应用程
我有一个包含 n 个十进制元素的列表,其中每个元素都是两个字节长。 可以说: x = [9000 , 5000 , 2000 , 400] 这个想法是将每个元素拆分为 MSB 和 LSB 并将其存储在
如何设置 GtKTextView 的大小?我想我不能使用 gtk_widget_set_usize。 最佳答案 您不能直接控制小部件的大小,而是由其容器完成。您可以使用 gtk_widget_set_
这个问题在这里已经有了答案: c++ sizeof() of a class with functions (7 个答案) 关闭 5 年前。 结果是 12。 foobar 函数存储在内存中的什么位置
当我在 ffmpeg(或任何其他程序)中使用这样的命令时: ffmpeg -i input.mp4 image%d.jpg 所有图像的组合文件大小总是比视频本身大。我尝试减少每秒帧数、降低压缩设置、模
我是 clojurescript 的新手。 高级编译后出现“77 KB”的javascript文件是否正常? 我有一个 clojurescript 文件: 我正在使用 leinigen: lein c
我想要一个 QPixmap尺寸为 50 x 50。 我试过 : QPixmap watermark(QSize(50,50)); watermark.load(":/icoMenu/preparati
我正在尝试从一篇研究论文中重新创建一个 cnn,但我对深度学习还是个新手。 我得到了一个大小为 32x32x7 的 3d 补丁。我首先想执行一个大小为 3x3 的卷积,具有 32 个特征和步幅为 2。
我一直在尝试调整 View Controller 内的 View 大小,但到目前为止没有运气。基本上,我的 View 最底部有一个按钮,当方向从纵向更改为横向时,该按钮不再可见,因为它现在太靠下了。
如何使用此功能检查图像的尺寸?我只是想在上传之前检查一下... $("#LINK_UPLOAD_PHOTO").submit(function () { var form = $(this);
我用 C++ 完成了这个,因为你可以通过引用传递参数。我无法弄清楚如何在 JavaScript 中执行此操作。我的代码需要更改什么?我的输出是1 this.sizeOfBst = function()
我是一名优秀的程序员,十分优秀!