apache-spark - 外部覆盖后 Spark 和 Hive 表架构不同步-6ren

apache-spark - 外部覆盖后 Spark 和 Hive 表架构不同步

转载作者：行者123 更新时间：2023-12-04 03:09:34

28

4

我在使用 Spark 2.1.0 和 Hive 2.1.1 的 Mapr 集群上的 Spark 和 Hive 之间的 Hive 表架构不同步时遇到问题。

我需要尝试专门针对托管表解决此问题，但可以使用非托管/外部表重现该问题。

步骤概述

使用 saveAsTable将数据帧保存到给定的表。

使用 mode("overwrite").parquet("path/to/table")覆盖先前保存的表的数据。我实际上是通过 Spark 和 Hive 外部的进程修改数据，但这会重现相同的问题。

使用 spark.catalog.refreshTable(...)刷新元数据

用 spark.table(...).show() 查询表.原始数据帧和覆盖数据帧之间相同的任何列都将正确显示新数据，但不会显示仅在新表中的任何列。

例子

db_name = "test_39d3ec9"
table_name = "overwrite_existing"
table_location = "<spark.sql.warehouse.dir>/{}.db/{}".format(db_name, table_name)

qualified_table = "{}.{}".format(db_name, table_name)
spark.sql("CREATE DATABASE IF NOT EXISTS {}".format(db_name))

另存为托管表

existing_df = spark.createDataFrame([(1, 2)])
existing_df.write.mode("overwrite").saveAsTable(table_name)

请注意，使用以下内容保存为非托管表会产生相同的问题:

existing_df.write.mode("overwrite") \
    .option("path", table_location) \
    .saveAsTable(qualified_table)

查看表的内容

spark.table(table_name).show()
+---+---+
| _1| _2|
+---+---+
|  1|  2|
+---+---+

直接覆盖 Parquet 文件

new_df = spark.createDataFrame([(3, 4, 5, 6)], ["_4", "_3", "_2", "_1"])
new_df.write.mode("overwrite").parquet(table_location)

使用 parquet reader 查看内容，内容显示正确

spark.read.parquet(table_location).show()
+---+---+---+---+
| _4| _3| _2| _1|
+---+---+---+---+
|  3|  4|  5|  6|
+---+---+---+---+

刷新表的 spark 元数据并作为表再次读入。将更新相同列的数据，但不会显示其他列。

spark.catalog.refreshTable(qualified_table)
spark.table(qualified_table).show()
+---+---+
| _1| _2|
+---+---+
|  6|  5|
+---+---+

我还尝试在调用 spark.catalog.refreshTable 之前更新 hive 中的架构在 hive shell 中使用以下命令:

ALTER TABLE test_39d3ec9.overwrite_existing REPLACE COLUMNS (`_1` bigint, `_2` bigint, `_3` bigint, `_4` bigint);

运行 ALTER 命令后，我运行 describe 并在 hive 中正确显示

DESCRIBE test_39d3ec9.overwrite_existing
OK
_1                      bigint
_2                      bigint
_3                      bigint
_4                      bigint

在运行 alter 命令之前，它只按预期显示原始列

DESCRIBE test_39d3ec9.overwrite_existing
OK
_1                      bigint
_2                      bigint

然后我跑了 spark.catalog.refreshTable但这并没有影响 spark 对数据的看法。

补充说明

在 spark 方面，我使用 PySpark 进行了大部分测试，但也在 spark-shell (scala) 和 sparksql shell 中进行了测试。在 Spark shell 中，我也尝试使用 HiveContext但没有用。

import org.apache.spark.sql.hive.HiveContext
import spark.sqlContext.implicits._
val hiveObj = new HiveContext(sc)
hiveObj.refreshTable("test_39d3ec9.overwrite_existing")

在 hive shell 中执行 ALTER 命令后，我在 Hue 中验证了架构也在那里发生了变化。

我还尝试使用 spark.sql("ALTER ...") 运行 ALTER 命令但是我们使用的 Spark 版本 (2.1.0) 不允许它，并且基于此问题，它看起来直到 Spark 2.2.0 才可用: https://issues.apache.org/jira/browse/SPARK-19261

我也再次通读了 spark 文档，特别是本节: https://spark.apache.org/docs/2.1.0/sql-programming-guide.html#hive-metastore-parquet-table-conversion

基于这些文档， spark.catalog.refreshTable应该管用。 spark.sql.hive.convertMetastoreParquet的配置通常是 false ，但我把它切换到 true用于测试，它似乎没有任何影响。

任何帮助将不胜感激，谢谢!

最佳答案

我在 CDH 5.11.x 包中使用 spark 2.2.0 时遇到了类似的问题。

后 spark.write.mode("overwrite").saveAsTable()当我发出 spark.read.table().show不会显示任何数据。

在检查时，我发现这是 CDH spark 2.2.0 版本的一个已知问题。解决方法是在执行 saveAsTable 命令后运行以下命令。

spark.sql("ALTER TABLE qualified_table set SERDEPROPERTIES ('path'='hdfs://{hdfs_host_name}/{table_path}')")

spark.catalog.refreshTable("qualified_table")

例如:如果您的表 LOCATION
就像 hdfs://hdfsHA/user/warehouse/example.db/qualified_table
然后分配 'path'='hdfs://hdfsHA/user/warehouse/example.db/qualified_table'

这对我有用。试一试。我想现在你的问题已经解决了。如果没有你可以试试这个方法。

解决方法来源: https://www.cloudera.com/documentation/spark2/2-2-x/topics/spark2_known_issues.html

关于apache-spark - 外部覆盖后 Spark 和 Hive 表架构不同步，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49201436/

28

4

0

文章推荐： jasper-reports - 在 Excel 中显示全文而不截断

C++ 覆盖...覆盖？
我知道 C++ 中的 overriding 是什么。但是，是否存在覆盖？如果有，是什么意思？谢谢。最佳答案在 C++ 术语中，您有覆盖(与类层次结构中的虚拟方法相关)和重载(与具有相同名称但
覆盖/覆盖/堆叠元素上的 Javascript 鼠标事件
我想捕获位于另一个元素下的元素的鼠标事件。这是我所拥有的示例:http://jsfiddle.net/KVLkp/13/ 现在我想要的是当鼠标悬停在红色方 block 上时蓝色方 block 有黄色
python - Pandas boxplot 覆盖/覆盖 matplotlib 图
以下报道 here我尝试创建一个带有重叠散点图的箱线图。但是当我运行时: In [27]: table1.t_in[table1.duration==6] Out[27]: counter 7
javascript - 在 JavaScript 事件中替换/覆盖/覆盖 e.target
有一个 JS Fiddle here , 你能在不克隆到新对象的情况下替换 e.target 吗？下面重复了那个 fiddle 的听众； one.addEventListener('click',
JavaDoc 覆盖
首先要解决重复的可能性: 我不是询问 Override 是什么、它的含义或 @Override 在 java 文档注释之外。那是我不是问 /**Some JavaDoc Comment*/ @over
Java特殊数组补顶/覆盖
我想要高于定义的数组。它存储点及其坐标。 public static List simpleGraph(List nodes) { int numEdges = nodes.size() *
CSS 覆盖
我在 http://olisan.dk/blog/ 有一个博客- 如您所见，有一个 28 像素的高间隙(边距顶部)...在 style.css 中: margin-top: 0; 也被设置为 marg
c++ - 覆盖 VK_USE_64_BIT_PTR_DEFINES
Vulkan 句柄是指向 struct 的不透明指针，或者只是无符号的 64 位整数，具体取决于 VK_USE_64_BIT_PTR_DEFINES 的值: #if (VK_USE_64_BI
wpf - 覆盖 DataGridTextColumn
我正在尝试提供一个行为类似于 DataGridTextColumn 的 DataGrid 列，但在编辑模式下有一个附加按钮。我查看了 DataGridTemplateColumn，但似乎更容易将 Da
Django 覆盖 ASCIIUsernameValidator
使用 Django 1.10 我想在用户名中允许\字符，因为我在使用“django.contrib.auth.middleware.RemoteUserMiddleware”的 Windows 环境中
找不到用于在视频中添加水印的 FFMPEG 覆盖
我正在尝试使用 ffmpeg 将 Logo 放入 rtmp 流中。我的 ffmpeg 版本是 ffmpeg version 4.3.1目前在我的复杂过滤器中，我有: ffmpeg -re -i 'v
Firebase 3存储不允许文件更新/覆盖
是否有用于Firebase 3存储的方法/规则来禁用文件更新或覆盖？我为数据库找到了data.exists()，但没有为存储找到解决方案。最佳答案 TL; DR:在Storage Security
Docker Compose 覆盖
我有两个 Docker Compose 文件，docker-compose.yml看起来像这样 version: '2' services: mongo: image: mongo:3.2
java - 覆盖@CollectionTable
我需要覆盖 JPA 中的集合表吗？也许有人有想法 public class nationality{ @Embedded @AttributeOverrides({
WIX 安装文件，覆盖
嗨，我正在使用 WIX 和下面的代码将文件安装到目录中。我的应用程序的工作方式是用户可以在该目录中复制他们自己的文件，覆盖他们喜欢的内容
Lua 覆盖 # 字符串
我正在尝试为 Lua 中的字符串实现我自己的长度方法。我已成功覆盖字符串的 len() 方法，但我不知道如何为 # 运算符执行此操作。 orig_len = string.len function
scala - 覆盖 'val'时出现意外结果
在Scala 2.10.4中，给出以下类: scala> class Foo { | val x = true | val f = if (x) 100 else 200
Magento 覆盖 Controller
我想做上面的事情。我过去覆盖了许多文件...... block ，模型，助手......但这个让我望而却步。谁能看到我在这里做错了什么: (我编辑了这段代码......现在包括一些建议......
java - 参数顺序 - 覆盖
根据javadoc An instance method in a subclass with the same signature (name, plus the number and the ty
Java FileWriter 覆盖
我有一段代码，只要有可用的新数据作为 InputStream 就会生成新数据。每次都覆盖同一个文件。有时文件在写入之前变为 0 kb。 Web 服务会定期读取这些文件。我需要避免文件为 0 字节的情况

首页

博学

6Ren·AI

商城

apache-spark - 外部覆盖后 Spark 和 Hive 表架构不同步