hadoop - Hive - 是否适合构建数据仓库？-6ren

hadoop - Hive - 是否适合构建数据仓库？

转载作者：可可西里更新时间：2023-11-01 16:35:28

24

4

所以像大多数企业公司一样，我们在 Hadoop 中构建了一个数据仓库，在 Hive 中支持用户查询，现在经过几个月的用户验收测试，每个人都对它不像标准(Oracle/Netezza) 数据库，当最终用户用于临时数据分析时。虽然我知道这可能是一种非常愚蠢的做项目的方式(我们应该在构建产品之前研究用例和最适合的技术)，而且我知道 Hadoop 与单节点机器有何不同的基本技术方面......我仍然想了解在任何情况下使用 Hadoop/Hive 对数据仓库是否有意义？例如，

是否总是需要在查询性能方面进行权衡，或者是否可以通过配置更改、硬件的横向扩展来优化它们？
它能否像 Netezza 这样使用非商用硬件但在类似架构上运行的产品一样快？
Hadoop 的伟大之处在哪里，相比之下绝对打败了其他一切？

最佳答案

我认为 Hive MetaStore 作为查询接口(interface)比 HiveServer2 本身更有用。

MetaStore 是 Presto 和 Spark 用来获取数据的方式，比 MapReduce 快得多，但可能不如经过良好优化的 Tez 查询快，例如，在 Hive v2.x+ 中使用 LLAP 进行了改进。

最后，只有当摄取管道实际以 ORC 或 Parquet 的列格式存储数据时，Hive 才真正有用。从那里，合理的查询引擎可以相当快地扫描该数据，而 Hive 恰好被认为是该访问模式的实际实现，而 Impala 或 Presto 通常更多地用于临时访问。

也就是说，Hive(以及 Hadoop 上的其他 SQL)不是用于“构建”，而是用于“分析”

而且我不知道你所说的“标准”是什么意思——Hive 支持任何 ODBC/JDBC 连接，所以它不像你去 CLI 进行所有访问，HUE 或 Zeppelin 为 SQL 分析制作了非常好的笔记本 hive 。

关于hadoop - Hive - 是否适合构建数据仓库？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54241078/

24

4

0

文章推荐： java - 在java中使用登录加载网页

文章推荐： c++ - 为什么在使用命名空间指令时没有为函数添加命名空间？

文章推荐： c++ - 什么是 "allocation context"？

文章推荐： vb.net - 如何使用 VB.Net 读取从 URL 返回的内容？

apache-spark - Spark 仓库 VS Hive 仓库
Hortonworks 数据平台 HDP 3.0 有 spark 2.3 和 Hive 3.1，默认情况下 spark 2.3 应用程序(pyspark/spark-sql 等)使用 spark 数据
Perforce 仓库
是否最好让一个软件仓库包含多个文件夹，这些文件夹映射到工作区中的不同路径。或者一个仓库中的多个文件夹映射到多个工作区，或多个仓库映射到多个工作区。有人对此事有任何实用建议吗？我还注意到，当我在仓库
git 仓库
Git 是分布式源代码控制系统，对吧。如何在没有集中存储库的情况下连接两个开发人员。我们的团队使用 Github，如果两个开发人员想在同一个分支上工作，似乎需要将该分支推送到远程，然后他们才能访问它
06、Maven 仓库
Maven – 仓库什么是 Maven 仓库？在Maven 的术语中，仓库是一个位置（place），例如目录，可以存储所有的工程 jar 文件、library jar 文件、插件或任何其他的工
使用正则表达式搜索 github 仓库
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 3年前关闭。 Improve this questi
在网络根目录之外有多个目录的 Git 仓库？
我开始将 git 与我的 .git 目录以及网络根目录中的其他所有内容一起使用。进一步阅读后，这似乎是一种不好的做法。我现在将我的应用程序和系统文件夹放在网络根目录之外。我的网络根目录中唯一剩下的就是
没有历史的 Git 仓库
有没有可能没有历史的 Git 仓库？例如，我有一个我工作的本地 Git 存储库，我想将最新版本推送到生产服务器。生产服务器上不应存储任何历史记录。我该怎么做？最佳答案你可以看到命令 git arc
php - Laravel 仓库
Laravel 中的 Repositories 有什么优势？它似乎是从应用程序的业务逻辑中抽象出模型层。虽然这似乎只是让整个请求生命周期变得更加复杂，但收效甚微。有人可以阐明 Laravel 存储库
git - 如何正确初始化远程 git 仓库
我有一个本地 git 服务器在我的 NAS 上运行，我正在我的笔记本电脑和工作站上进行开发，所有这些都在我的本地网络中。所以，如果我想在一个新的空 repo 中开始一个项目，我会关注 this ans
SVN 作为 Maven 仓库
我们正在使用 SVN 来存储 maven 依赖项(组织限制不能像现在那样使用 nexus 或 artifactory maven 存储库)。 SVN 在使用 https 协议(protocol)的网络
GITHUB 允许别人查看我的私有(private)仓库
我想允许某人查看我在我的私有(private)存储库中所做的工作。我该怎么做？我看了https://help.github.com/articles/making-a-private-reposit
git - 如何防止已删除的标签再次推送到远程 git 仓库？
我试图阻止同事在 git 中再次推送已删除的标签(因为它被错误地推送了一次)。我知道如何在本地执行此操作以及如何将其推送到远程以及如何指示我的同事以正确的方式从他们的本地存储库中删除已删除的标签。
git - 推送到 friend 仓库
我已经使用 url 克隆了一个 friend 的 git repo git 克隆 https://github.com/user/repo_name.git 然后我创建了我的分支，提交并尝试将我的代码
PlayFramework 私有(private)仓库
我目前正在我的代理机构安排比赛。我想对开发人员可以使用的模块进行一些管理。是否可以托管 Play 模块和 Maven 库的镜像存储库并将 play 配置为仅使用这些存储库？我已阅读此内容 docu
Github 自述文件图像嵌入私有(private)仓库？
我正在尝试在我的 readme.md 中嵌入图像用于在 GitHub 上显示。我以前在公共(public)存储库中没有遇到任何问题，格式如下: ![header image](https://raw.
gradle - 如何从Gradle访问公司 Artifactory 仓库？
我想访问公司内部Artifactory实例上自定义开发的Gradle插件。对于公司内部发生的每一个Gradle构建，我都希望如此。我是否缺少任何东西，或者建议的方法是在每个项目的每个Gradle构建之
docker - fork docker 仓库
我想保留我在 docker hub 帐户中使用的图像，同时保持对拉取图像的引用。就像你在 github 上 fork 一个项目一样。目前我已经尝试过jwilder/nginx-proxy图片。现在我
mapping - Perforce 仓库/客户端映射
Perforce 中是否有命令可以获取客户端从软件仓库映射到特定文件夹的信息？示例: 我有仓库位置//depot/myfolder/somefile.java 我想知道哪些客户端将此位置映射到哪个路
mercurial - 如何将新功能推送到中央 Mercurial 仓库？
我被指派为一个项目开发一项功能。在几周的时间里，我将花几天时间研究该功能。我将克隆中央仓库。然后我将在本地工作 3 周。在此过程中，我会多次将我的进度提交到我的 repo 协议(protocol)中。
github - 使用Rstudio发布时从Rpubs切换到github私有(private)仓库
我发现自己越来越喜欢将Rstudio与R markdown文件(.rmd)一起使用，并且我非常喜欢“编织HTML +发布到Rpubs”的便利与同事共享我的工作。不幸的是，发布的文件必须是公开可见的，而

首页

博学

6Ren·AI

商城

hadoop - Hive - 是否适合构建数据仓库？