gpt4 book ai didi

hadoop - 与数据存储相比,HDF5 在数据检索方面的效率如何?

转载 作者:可可西里 更新时间:2023-11-01 14:30:47 25 4
gpt4 key购买 nike

我想将一个带键的 500GB 表转储到 HDF5 中,然后检索与特定键匹配的行。

对于 HDF5 文件,所有数据访问之类的项目都使用整数“行”号,因此我似乎必须在 HDF5 之外实现“键到行号映射”。

使用 HDFS 的分布式系统(如 Hadoop 或 Spark)的检索效率不是更高吗?我应该使用分布式系统来实现映射/哈希函数吗?

最佳答案

是的,使用 HDFS 可以更高效
但要使其更高效,最好的情况是使用 Hive 而不是 HDFS,因为 Map reduce 不提供任何默认的方式来按键分离数据。如果你想按键分离数据,你需要为它编码。

但是在 Hive 的情况下,您可以更有效地查询数据,因为 Hive 为您提供了许多内置的查询命令,例如 ex--> 按键、按值等分隔。由于 Hive 使用 Sql 查询,因此也更易于使用。

有关查询 HDFS 的不同方式的更多详细信息,请参阅 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF

希望这会回答您的问题。

关于hadoop - 与数据存储相比,HDF5 在数据检索方面的效率如何?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38282019/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com