apache-spark - Spark 仓库 VS Hive 仓库-6ren

apache-spark - Spark 仓库 VS Hive 仓库

转载作者：行者123 更新时间：2023-12-04 15:53:13

37

4

Hortonworks 数据平台 HDP 3.0 有 spark 2.3 和 Hive 3.1，默认情况下 spark 2.3 应用程序(pyspark/spark-sql 等)使用 spark 数据仓库，Spark 2.3 使用 Hive Warehouse Connector 以不同的方式与 Apache Hive 集成。

integrating-apache-hive-with-apache-spark-hive-warehouse-connector

我可以在 Hive metastore (MySQL) 中看到 2 个默认数据库。一个指向 Hive 位置，另一个指向 spark 位置。

mysql> SELECT NAME, DB_LOCATION_URI FROM hive.DBS;
+--------+----------------------------------------------------------+
| NAME   | DB_LOCATION_URI                                          |
+--------+----------------------------------------------------------+
| default| hdfs://<hostname>:8020/warehouse/tablespace/managed/hive |
| default| hdfs://<hostname>:8020/apps/spark/warehouse              |
+--------+----------------------------------------------------------+

mysql>

谁能解释一下这两种类型的仓库有什么区别，我找不到任何关于这方面的文章，我们可以使用 spark 仓库而不是 Hive(我知道 spark 仓库不能通过 Hive 访问，或者有什么办法吗？)。这2个(spark仓库和hive仓库)各有什么优缺点？

最佳答案

从 HDP 3.0 开始，Apache Hive 和 Apache Spark 的目录是分开的，它们使用自己的目录；也就是说，它们是互斥的——Apache Hive 目录只能被 Apache Hive 或这个库访问，而 Apache Spark 目录只能被 Apache Spark 中现有的 API 访问。换句话说，一些功能，如 ACID 表或 Apache Ranger with Apache Hive 表只能通过 Apache Spark 中的这个库获得。 Hive 中的这些表不应直接在 Apache Spark API 中访问。

默认情况下，spark 使用 spark 目录，下面的文章解释了如何通过 Spark 访问 Apache Hive 表。

Integrating Apache Hive with Apache Spark - Hive Warehouse Connector

一些额外细节的 Github 链接:

HiveWarehouseConnector - Github

关于apache-spark - Spark 仓库 VS Hive 仓库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53044191/

37

4

0

文章推荐： facebook-messenger - 自定义负载不适用于 Messenger

文章推荐： puppeteer - 在回调中访问外部范围变量

文章推荐： reverse-engineering - ESP8266 的安全性如何？

Mercurial:移植 vs. 记录 vs. qrecord vs. shelve vs. 移植 vs. dirstate vs. queue
我是 Mercurial 的新手，并且不知何故仍处于评估过程中，所以这四个概念对我来说有点困惑。有些被提到等同于 Git 的 Staging/Index 概念，有些甚至比 Git 的 Staging
gruntjs - NPM vs. Bower vs. Browserify vs. Gulp vs. Grunt vs. Webpack
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 6 个月前关闭。 Improve this ques
javascript - 语法 vs 元素 vs 标签 vs 属性 vs 属性 vs 选择器？
任何人都可以给我详细信息吗？例如？ #ID 是属性、特性、选择器还是 anchor ？默认属性和默认属性是不同的东西吗？这些都是标签还是元素？我们将对此说些什么这个 ..... 还有这些
c# - List vs ArrayList vs Dictionary vs Hashtable vs Stack vs Queue？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 8 年前。 Improve this qu
javascript - innerText vs innerHTML vs label vs text vs textContent vs outerText
我有一个由 Javascript 填充的下拉列表。在决定加载时显示的默认值时，我意识到以下属性显示的值完全相同: innerText innerHTML label text textContent
nsis - Exec vs ExecWait vs ExecShell vs nsExec::Exec vs nsExec::ExecToLog vs nsExec::ExecToStack vs ExecDos vs ExeCmd
我可以知道每个 Exec 之间有什么区别吗？ , ExecWait , ExecShell , nsExec::Exec , nsExec::ExecToLog, nsExec::ExecToStac
补丁 vs. 修补程序 vs. 维护版本 vs. Service Pack vs
当您处于版本 1 和版本 2 之间时，您会如何维护您的软件？从我的角度来看，“补丁”、“修补程序”、“维护版本”、“服务包”等术语都很模糊，根据与您交谈的对象不同，定义也不同。您如何称呼版本之间的
javascript - `Math.trunc` vs `|0` vs `<<0` vs `>>0` vs `&-1` vs `^0`
我刚刚发现在 ES6 中有一个新的数学方法:Math.trunc . 我在 MDN article 中阅读了它的描述。 , 听起来像使用 |0 . 此外，>0 , &-1 , ^0也做类似的事情(感谢
wpf - Stackpanel:高度 vs ActualHeight vs ExtentHeight vs ViewportHeight vs DesiredSize vs RenderSize
我想知道我的 StackPanel 所有项目的高度。有什么区别: Height - 获取或设置元素的建议高度。 ActualHeight - 获取该元素的渲染高度。 (只读) ExtentHeigh
ruby - bundler vs RVM vs gems vs RubyGems vs gemsets vs system ruby
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 9 年前。 Improve this
macros - 数学 : Unevaluated vs Defer vs Hold vs HoldForm vs HoldAllComplete vs etc etc
我对所有声称以某种方式阻止计算的内置 Mathematica 函数感到困惑:Unevaluated、Defer、Hold ，以及超过 6 个 Hold* 形式。 Mathematica 文档只是单独解
sqlite vs 共享内存应用程序 vs ipc vs？
我什至不确定正确的术语，所以让我从我的目标开始:拥有一个简单的应用程序(“Data Doler”)，它只会将大量数据从文件读取到内存中，然后提供服务将该数据切片到名为“Data Lapper”的单个多
Elasticsearch - 通配符 vs 前缀 vs vs 正则表达式 vs query_string 差异和性能
我刚刚开始在我的项目中使用 Elasticsearch，我想像 sql 关键字一样搜索 '喜欢%' 做。谁能解释一下之间的区别通配符 , 前缀 , 查询字符串和正则表达式 ? 哪个可以搜索最好性
qt - 制作轻量级网络浏览器 - Gecko vs Webkit vs ???; Qt4 vs Qt5 vs？
由于我对任何主流浏览器(Firefox、Chrome、Opera)都不太满意，而且我尝试过的不太受欢迎的浏览器(近十几种)都没有，所以我决定 DIY 并制作一个网页我想要最好的浏览器。主要目标是让它
python - Xpath vs DOM vs BeautifulSoup vs lxml vs other 解析网页的最快方法是什么？
我知道如何使用 Python 解析页面。我的问题是哪种方法是所有解析技术中最快的，其他方法的速度有多快？我知道的解析技术有Xpath、DOM、BeautifulSoup，还有使用Python的fin
c - atoi vs atol vs strtol vs strtoul vs sscanf
我试图从正在解析的命令行中找出哪个函数最适合将十进制、十六进制或八进制数转换为 int 最好——在不知道输入的情况下事先。目标是使用一个函数来识别不同类型的输入并将其分配给它的整数 (int) 值，
java - TagSoup vs. Jsoup vs. HTML Parser vs. HotSax vs
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
facebook - 地理定位 API : SimpleGeo vs CityGrid vs PublicEarth vs Twitter vs Foursquare vs Loopt vs Fwix. 如何检索 field /位置信息？
我们需要在我们的网站上显示酒吧、餐馆和剧院等各种场所的元信息(例如，地址、姓名)。理想情况下，用户会输入地点名称以及邮政编码，我们会提供最接近的匹配项。人们将哪些 API 用于类似的地理定位目的？
jquery-mobile - Sencha Touch vs. jQtouch vs. GWT mobile vs. XUI vs. jQuery Mobile vs.
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
javascript - Flex vs. jQuery vs. GET vs./Closure vs. Cappuccino vs. 纯 JS 和 HTML5？
我正在创建我的第一个 Web 应用程序，我真的很困惑应该使用什么技术。我的应用程序需要看起来很严肃(像一个应用程序)，它不需要很多色彩缤纷的图形界面。它只需要一个工具栏、一个标签栏、一个拆分面板(最

首页

博学

6Ren·AI

商城

apache-spark - Spark 仓库 VS Hive 仓库