hadoop - 与数据存储相比，HDF5 在数据检索方面的效率如何？-6ren

hadoop - 与数据存储相比，HDF5 在数据检索方面的效率如何？

转载作者：可可西里更新时间：2023-11-01 14:30:47

25

4

我想将一个带键的 500GB 表转储到 HDF5 中，然后检索与特定键匹配的行。

对于 HDF5 文件，所有数据访问之类的项目都使用整数“行”号，因此我似乎必须在 HDF5 之外实现“键到行号映射”。

使用 HDFS 的分布式系统(如 Hadoop 或 Spark)的检索效率不是更高吗？我应该使用分布式系统来实现映射/哈希函数吗？

最佳答案

是的，使用 HDFS 可以更高效
但要使其更高效，最好的情况是使用 Hive 而不是 HDFS，因为 Map reduce 不提供任何默认的方式来按键分离数据。如果你想按键分离数据，你需要为它编码。

但是在 Hive 的情况下，您可以更有效地查询数据，因为 Hive 为您提供了许多内置的查询命令，例如 ex--> 按键、按值等分隔。由于 Hive 使用 Sql 查询，因此也更易于使用。

有关查询 HDFS 的不同方式的更多详细信息，请参阅 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

希望这会回答您的问题。

关于hadoop - 与数据存储相比，HDF5 在数据检索方面的效率如何？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38282019/

25

4

0

文章推荐： java - 在 hadoop 中运行作业 - 错误

文章推荐： hadoop - 在 Docker 容器上使用 Hadoop 和 Spark

文章推荐： hadoop - 在 apache spark 中访问以下划线开头的文件

文章推荐： java - flink 文档中给出的代码无法编译

haskell - .与haskell中的$相比
这个问题在这里已经有了答案: 11年前关闭。 Possible Duplicate: Haskell: difference between . (dot) and $ (dollar sign) 好
Java开发标准和工具(与C#相比)
我对 Java 平台没有任何了解，我想知道可以使用哪些工具(和方法)来帮助开发用 Java 编写的可维护代码。我知道可以使用: 适用于任何环境的敏捷方法用于单元测试代码的 jUnit/jMock(
css - 与IE10+相比，IE9不支持的所有CSS规则有没有聪明的方法？
我们的产品需要支持 IE9，但我们一直假设 IE9 支持 IE10+ CSS 规则。是否有一种巧妙的方法来获取在 IE10+ 中有效但在 IE9 中不受支持的所有 CSS 规则，目的是在静态代码分析
c++ - 重载 += 与 + 相比
我需要为 MyString 类重载运算符 + 和 +=。 MyString.h class MyString { char* m_pStr; }; 主要
java - 与 i++ 相比，执行强制转换操作的成本有多高？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - `ofstream` 与 0 相比
我正在升级现有的旧代码以使用 VS 2019*，在代码中我有以下函数在返回行失败: int foo(const char *fn) const { ofstream out(fn,ios::b
R2D3 与 D3.js 相比
我想使用 R2D3 pacakge 在 R 中，但我不确定这个包与 D3.js 库的关系。 R2D3 是否以任何方式限制 D3 的功能？我们可以将 R 中的所有 D3 功能和特性与 R2D3 一起使用
c# - 语音识别质量极差，尤其是与 Word 相比
我正在使用 WPF 语音识别库，试图在桌面应用程序中使用它来替代菜单命令。 (我想专注于没有键盘的平板电脑体验)。它可以工作 - 有点，除了识别的准确性太差以至于无法使用。所以我试着听写到 Word。
sql - SELECT FROM WHERE IN 与多个表上的 SELECT FROM 相比
我在学校参加数据库类(class)。老师给了我们一个简单的练习:考虑以下简单的模式: Table Book: Column title (primary key) Column gen
mvvm - MVVM 架构中的模型与 MVC 相比
我正在尝试学习 MVVM 模式，特别是当 View 表示数据库表时该怎么做，但 View 有几个元素表示单个数据库字段。举个简单的例子: 假设我有一个 DateTime 类型的数据库字段(每个数据库字
与具有几百万行的表上的 "<>"相比，SQL Server "="运算符非常慢
我有两张 table 。表单有约 77000 行。日志约有 270 万行。以下查询将在不到一秒的时间内返回“30198”: SELECT COUNT(DISTINCT logs.DOCID) FRO
R 中的回归(与 Eviews 相比)
当您在 Eviews 中进行回归时，您会得到一组这样的统计数据: 在 R 中有没有一种方法可以在一个列表中获得所有/大部分关于 R 回归的统计数据？最佳答案请参阅summary，它将为大多数回归对
dictionary - 与Go中的 map 相比，搜索无序数组要花多少个元素
如果我枚举 type XType int const ( X1 XType = iota X2 ... Xn ) var XTypeNames = []string{"x1", "x2
r - 与 randomForest 相比，游侠的错误预测
我正在试用 ranger R包加速做了很多randomForest计算。我正在检查我从中得到的预测，并注意到一些有趣的事情，因为所做的预测完全不正确。以下是比较 randomForest 的可重现示
clang - 与 GCC 相比，编译时间显着变慢
我发现 Clang 编译速度比 GCC 慢了四倍。知道是什么原因造成的吗？ ebg@tsuki(250)$ time /usr/bin/cc -DHC4 -DSAFETY -DNOREDUCE -DN
jquery - $.ajax 与 $.post 相比
我注意到在尝试以 JSON 格式发布表单数据时，以下内容不起作用: $.ajax({ type: "POST", url: url, data: JSON.string
c# - 与#if/#endif 相比，条件属性的缺点是什么？
我的代码库中有很多 #if DEBUG/#endif 语句，它们大多具有断言类型逻辑，我不敢在生产环境中运行这些逻辑。 [Conditional("DEBUG")] public void Check
c - 想知道何时使用 do while 循环与 while 相比(内部示例)
所以我正在开发一个平方根计算器，但我不知道 while 循环是否比 do while 循环更适合。 double x, y = 1.0, newY, squareRoot; bool
c# - 与另一个列表 LINQ 相比，检查一个列表中有哪些元素
我有两个列表，一个是所有语言，另一个是网站拥有的语言子集，我的想法是返回所有语言，但如果子集的元素对应于所有语言的列表，则更改 bool 值的属性. 语言的DTO: public class DTOL
c# - 与 winform 相比，来自控制台的过程
以下控制台应用程序运行正常 - 我很惊讶它没有出错。 class DelegateExperiments { //>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>

首页

博学

6Ren·AI

商城

hadoop - 与数据存储相比，HDF5 在数据检索方面的效率如何？