apache-spark - 外部 Hive 表刷新表与 MSCK 修复-6ren

apache-spark - 外部 Hive 表刷新表与 MSCK 修复

转载作者：行者123 更新时间：2023-12-04 05:17:28

25

4

我将外部配置单元表存储为 Parquet，按列分区，例如 as_of_dt并通过 Spark 流插入数据。
现在每天都会添加新分区。我在做msck repair table以便 hive Metastore 获取新添加的分区信息。这是唯一的方法还是有更好的方法？我担心如果下游用户查询表，会msck repair导致数据不可用或陈旧数据的任何问题？我正在通过 HiveContext API 并查看 refreshTable选项。知道使用 refreshTable 是否有意义反而？

最佳答案

要直接回答您的问题 msck repair table，将检查表的分区是否处于事件状态。这意味着如果您删除了一些分区，并且不希望它们显示在表的 show partitions 命令中，则 msck repair table 应该删除它们。 Msck 修复可能比 invalidate 或 refresh 语句花费更多的时间，但是 Invalidate Metadata 仅在 Hive 中运行，仅更新 Hive Metastore。刷新仅在 Spark SQL 中运行并更新 Spark 元数据存储。

如果您在处理中的某处完成添加分区步骤，Hive Metastore 应该没问题，但是如果您想通过 Spark SQL 访问 Hive 表，您将需要通过 Spark(或 Impala 或其他更新 Spark 的进程)更新元数据元数据)。

任何时候更新或更改 hive 表的内容时，Spark 元存储都可能不同步，导致您无法通过 spark.sql 命令集查询数据。这意味着如果你想查询你需要保持 Spark Metastore 同步的数据。

如果你有一个允许它的 Spark 版本，你应该刷新并向 Spark 中的 Hive 表添加分区，这样所有的元存储都是同步的。以下是我的做法:

//Non-Partitioned Table
outputDF.write.format("parquet").mode("overwrite").load(fileLocation)
spark.sql("refresh table " + tableName)

//Partitioned Table
outputDF.write.format("parquet").mode("overwrite").load(fileLocation + "/" + partition)
val addPartitionsStatement = "alter table" + tableName = " add if not exists partition(partitionKey='" + partition + "') location '" + fileLocation + "/" + partition + "'"
spark.sql(addPartitionsStatement)
spark.sql("refresh table " + tableName)

关于apache-spark - 外部 Hive 表刷新表与 MSCK 修复，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51712996/

25

4

0

文章推荐： apache-kafka - 卡夫卡不删除带有墓碑的 key

文章推荐： r - 插入符号包 - 定义正结果

文章推荐： drop-down-menu - ionic 导航栏下拉菜单

java - hibernate 批量更新后清除 session 、刷新、刷新？
我们知道，当使用 hibernate 对数据库进行批量更新时(即使在 HQL 中)，所做的更改不会复制到存储在当前 session 中的实体。所以我可以调用 session.refresh 来加载对
Selenium 刷新
我正在做一个项目，所有的东西都保存在事件中，所以服务器需要一些时间来响应新数据。我正在使用 Fluent 等待使用 ajax 的页面，但是这个不使用任何 ajax。所以我想刷新页面检查是否有新项目，如
刷新 Jtable
我有一个从 Vector 创建的 JTable。如何刷新 JTable 以显示添加到 Vector 的新数据？最佳答案当 TableModel 发生更改时，您的 JTable 应该会自动更新。我
JavaScript 刷新
有没有办法使用下面的代码来刷新已经存在的 div id，而不是刷新时间？ window.onload = startInterval; function startInterval() {
刷新 Shiny 的数据集
我更新了在 Shiny Server 上运行的 Shiny 应用程序使用的 DataSet.RData。但是， Shiny 的应用程序仍在旧数据上运行。我已通过浏览器历史记录清除并重新启动浏览器几次，
无限滚动网格面板的 ExtJs 刷新
我的应用程序中有一个无限滚动的网格面板(ExtJs 4.2.1)，类似于 this example .用户可以单击刷新按钮，然后必须使用数据库中的数据更新网格的行。我在刷新按钮处理程序中调用 stor
delphi - 刷新、更新和重画之间有什么区别？
我不知道这三种方法中哪一种最适合我。他们都为我工作。有谁知道刷新、更新和重画之间的区别吗？最佳答案根据在线文档: Refresh - 重新绘制屏幕上的控件。 Call Refresh method
WPF ICollectionView 刷新
有什么办法吗 ICollectionView.Refresh() 或者 CollectionViewSource.GetDefaultView(args.NewValue).Refresh(); 在
javascript - 更改查询字符串而不重新加载/刷新
这个问题已经有答案了: Updating address bar with new URL without hash or reloading the page [duplicate] (4 个回答)
javascript - setTimeout 刷新
我有一个 javascript 设置超时以在 10 秒后关闭 div，并且我想在 div 关闭时添加页面刷新。我正在使用的代码如下。 var container_close_sec = "1
php - 在多个页面之间循环(刷新)？
我有一组具有以下名称的页面.... update1.php update2.php update3.php update4.php update5.php update6.php update7.ph
php - 刷新/提交后保持选中状态的复选框以及
如果是则触发js函数。我可以使一个复选框保持选中状态，并在页面刷新时检查值并选中“checked”，并提交以下内容... checked="checked" /> 你都不记得触发js函数。这是我的
Javascript div 刷新
我正在尝试刷新 php 脚本以在数据库更新时显示更新的内容。我首先构建了我的 php，然后刷新代码，然后合并它们。但是，脚本不会更新。有谁知道为什么吗？ $(document).ready
hibernate - 如何使域实例关联无效/刷新？
当我要删除的节点扩展集合类型时，Grails中有一个错误阻止我使用removeFrom *。直接从关联中删除节点不会更新二级缓存。 A hasMany B 有什么方法可以使关联缓存手动无效或强制重新加
java - hibernate 刷新？
我正在使用 hibernate 和 mysql 来抽象一个数据库，以便在 java 驱动的网站中使用。我使用 hibernate 很好地解决了所有查询，但似乎无法弄清楚如何使用它进行更新、插入和删除，
java - 刷新 fragment
如何通过调用 oncreateview 方法重新创建 fragment ？我有一个 fragment ，用于通过表单插入新数据，单击按钮后，我想通过删除在 EditText 中输入的数据来重新创建 f
iphone - 刷新 View
当我从一个到另一个时，我试图刷新我的观点。我知道我应该将刷新代码放在 viewWillAppear 中，但我不知道该放什么代码。你们能帮帮我吗？谢谢! 最佳答案在您看来，请调用 setNeeds
flush - NSOutputStream 刷新
我正在开发 iPhone 应用程序并希望使用: CFStreamCreatePairWithSocketToHost(NULL, url, port, &serverReadStream, &serv
PHP session 刷新!
看到我已经创建了一个用于登录用户的脚本。而且我还添加了设置选项卡，以便用户可以编辑他们的设置!但是当我尝试它时，mysql 表中的数据发生了变化，但配置文件中显示的用户名和用户电子邮件保持不变!当我注
javascript - 在没有本地存储的情况下存储数据或只执行一次操作(刷新)
好的。这就是它的样子。当我启动应用程序时，我从服务器收到的第一件事是数据: {name: "test", type: "checkbox" checked: true, } 这使得其中一个复选框

首页

博学

6Ren·AI

商城

apache-spark - 外部 Hive 表刷新表与 MSCK 修复