gpt4 book ai didi

hadoop - Hive - 是否适合构建数据仓库?

转载 作者:可可西里 更新时间:2023-11-01 16:35:28 24 4
gpt4 key购买 nike

所以像大多数企业公司一样,我们在 Hadoop 中构建了一个数据仓库,在 Hive 中支持用户查询,现在经过几个月的用户验收测试,每个人都对它不像标准(Oracle/Netezza) 数据库,当最终用户用于临时数据分析时。虽然我知道这可能是一种非常愚蠢的做项目的方式(我们应该在构建产品之前研究用例和最适合的技术),而且我知道 Hadoop 与单节点机器有何不同的基本技术方面......我仍然想了解在任何情况下使用 Hadoop/Hive 对数据仓库是否有意义?例如,

  • 是否总是需要在查询性能方面进行权衡,或者是否可以通过配置更改、硬件的横向扩展来优化它们?
  • 它能否像 Netezza 这样使用非商用硬件但在类似架构上运行的产品一样快?
  • Hadoop 的伟大之处在哪里,相比之下绝对打败了其他一切?

最佳答案

我认为 Hive MetaStore 作为查询接口(interface)比 HiveServer2 本身更有用。

MetaStore 是 Presto 和 Spark 用来获取数据的方式,比 MapReduce 快得多,但可能不如经过良好优化的 Tez 查询快,例如,在 Hive v2.x+ 中使用 LLAP 进行了改进。

最后,只有当摄取管道实际以 ORC 或 Parquet 的列格式存储数据时,Hive 才真正有用。从那里,合理的查询引擎可以相当快地扫描该数据,而 Hive 恰好被认为是该访问模式的实际实现,而 Impala 或 Presto 通常更多地用于临时访问。

也就是说,Hive(以及 Hadoop 上的其他 SQL)不是用于“构建”,而是用于“分析”

而且我不知道你所说的“标准”是什么意思——Hive 支持任何 ODBC/JDBC 连接,所以它不像你去 CLI 进行所有访问,HUE 或 Zeppelin 为 SQL 分析制作了非常好的笔记本 hive 。

关于hadoop - Hive - 是否适合构建数据仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54241078/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com