java - 无法查看通过 Spark SQL 创建的新数据-6ren

java - 无法查看通过 Spark SQL 创建的新数据

转载作者：行者123 更新时间：2023-12-02 10:50:57

27

4

我遇到一个问题，无法查看 Hive 中的某些数据。重现问题的步骤。创建一个表

drop table if exists hive_parquet_nulls_test ;

create table hive_parquet_nulls_test (
name String
)
 partitioned by (report_date DATE)
 stored as PARQUET;

然后创建一个数据框和一个新列并加载它们

import java.sql.Date
import org.apache.spark.sql._
import org.apache.spark.sql.functions._



case class Person(name : String, age : Int, report_date : Date)

val df = sc.parallelize(
    Seq(Person("Steve", 30, Date.valueOf("2016-09-30")), 
        Person("James", 29, Date.valueOf("2016-09-30")))).toDF

df.show(false)

spark.sql(s"ALTER TABLE hive_parquet_nulls_test  ADD COLUMNS (age integer)");
spark.sql(s"REFRESH TABLE hive_parquet_nulls_test");

df.write.mode(SaveMode.Overwrite).insertInto("hive_parquet_nulls_test")

此时我们可以看到hive中的所有数据。然后我们将创建另一个带有新列的数据框

val df = spark.table("hive_parquet_nulls_test")

val newDF = df.withColumn("address", lit("123 Green Avenue, London"))

newDF.show(false)


spark.sql(s"ALTER TABLE hive_parquet_nulls_test  ADD COLUMNS (address string)")
spark.sql(s"REFRESH TABLE hive_parquet_nulls_test")

spark.sql(s"describe hive_parquet_nulls_test")

val finalFieldNames = newDF.schema.fieldNames

val finalPartitionedDF = newDF.select($"name", $"age", $"address", $"report_date")
      .cache()

finalPartitionedDF.write.mode(SaveMode.Overwrite).insertInto("hive_parquet_nulls_test_test")


spark.table("hive_parquet_nulls_test").show(false)

加载后，只有地址列显示为空。而这种情况只发生在 hive 中。 Spark 完美地显示了这些列(因此其中的数据，hive 正在努力读取此列)。谁能建议如何解决这个问题？

最佳答案

您可以在第一次尝试时看到年龄列的数据，因为尚未在配置单元中创建分区，因此配置单元使用当前可用的架构，其中包括年龄列。

在第二次尝试时，您正在写入 hive 的现有分区，因此 hive 正在对创建分区后添加的所有列应用空值。

如果您将新数据写入任何新分区，您将立即看到数据。

如果您删除分区，然后写入已缓存的相同数据帧，则 hive 在查询时也会显示地址。

spark.sql("alter table hive_parquet_nulls_test drop partition(report_date='2016-09-30')");
finalPartitionedDF.write.mode(SaveMode.Overwrite).insertInto("hive_parquet_nulls_test")

在 hive 外壳上:

select address from hive_parquet_nulls_test;
OK
123 Green Avenue, London
123 Green Avenue, London

这似乎是由于配置单元错误而发生的 https://issues.apache.org/jira/browse/HIVE-6131

关于java - 无法查看通过 Spark SQL 创建的新数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59428896/

27

4

0

文章推荐： java - 在 Spring MVC 中处理更新表单

文章推荐： java - 从对象转换为原始类

文章推荐： r - R 中的桑基图？

文章推荐： sqlplus 假脱机 : How to get rid of first, 空行？

ios - 自定义动画过渡 - 查看/查看
我有一个用 Swift 编写的自定义转换，当呈现的 View 从侧面进入时，被关闭的 View 消失。现在我想要同样的效果，但我希望呈现的 View 从顶部进入，而被取消的 View 从底部出来。
android - DataBindingUtil findBinding(查看 View )与 getBinding(查看 View )
该方法的预期目的是什么 findBinding(View view) ？我一直在使用数据绑定(bind)库测试版。目前还没有针对各个类的官方引用文档，所以我一直在查看源代码以了解我们可以访问哪些方
rust - 查看 `for` 循环内的迭代器
我试图在遍历 &str 时查看当前位置前面的字符。 let myStr = "12345"; let mut iter = myStr.chars().peekable(); for c in ite
azure - 查看/更改Azure函数应用程序的底层存储
每当我在 Azure 中创建新的 Azure 函数应用时，我都会选择一个存储帐户供其使用。创建应用后，如何查看/更改存储帐户？我尝试在门户中浏览，但无法看到可以在哪里配置它。最佳答案创建后，您
qt - 查看 QTextStream
我想查看读取 QFile 的 QTextStream 的下一个字符，以创建一个高效的标记器。但是，我没有找到任何令人满意的解决方案。 QFile f("test.txt"); f.open(QIOD
java - 旋转手机取消选择列表中的项目查看
当我旋转手机时， ListView 中选定的项目将被取消选择。这是我的适配器。我只想更改所选项目的颜色(仅是单个选择)，当我旋转手机时，我想查看我选择的内容。现在，当我旋转手机时，我看不到所选项目。
查看 'puts'返回值，然后呢？
我开始编写代码来检查函数的返回值，但我不确定在捕获到一些错误后如何继续。例如，在 fgets 中: while( fgets( rta, 3, stdin ) == NULL ) {
java - 可滚动弧形轮查看
是否可以获取或创建一个 optional 轮，它以假想的圆圈滚动而不是直接向下(垂直)滚动？直线链接但想要弯曲例如就像控件 here ，但车轮是弯曲的？最佳答案有没有可能你想要的是一个轮播？
查看 Mysql 错误但在正常查询中工作
当我尝试为其创建 View 时出现错误:“ View 的 SELECT 在 FROM 子句中包含一个子查询”，但它在普通查询中工作正常。我认为它与我的 WHERE 子句有关，但我不明白为什么或如何修复
c# - 查看/检索属性
在一个类中，我有以下代码: /// [System.Xml.Serialization.XmlElementAttribute("Errors", typeof(ErrorsType))] [Sys
android - 在屏幕上显示错误信息(查看)
我想显示来自 catch block 的错误(日志)消息。如何在单个屏幕上显示所有消息(堆栈)，以便用户了解？谢谢... 最佳答案使用 Toast 怎么样？示例: Toast.makeText(
ios - 查看 tableView
我有以下屏幕(图像)，当按下按钮时显示一个侧面菜单，菜单出现，另外我有一个 uitableview 来显示其他东西我的问题是，当侧边菜单出现时，uitableview 被调整了大小。如何保持 ui
javascript - 查看 'SeekBar'的render方法
invariant violation element type is invalid: expected a string (for built-in components) or a class/
c - 查看 execvp();
我是新手，正在尝试学习 fork() 和系统调用的功能，现在我正在使用 execvp() 来尝试制作 bash，但我遇到的问题是，当我编写正确的命令时，程序结束，我想循环使用我的 bash，直到有人在
php - 调用字符串上的成员函数 all()(查看 :
我正在尝试使用 Laravel request validation method 创建一个登录页面和凭据验证 -> 如果用户未通过身份验证，它将返回错误“密码错误....” 我在两种不同的情况下看
java - 查看.jar文件的内容
我有一个 .jar 文件，我需要查看 jar 文件的内容。是否有任何解码器可用于解码 jar 文件。我也有 solaris 环境，我需要知道什么是最佳答案使用jar命令行，即 jar tf j
查看 Git 提交中发生了什么变化
Git 提供了几种方式可以帮你快速查看提交中哪些文件被改变。如果你每天使用 Git，应该会提交不少改动。如果你每天和其他人在一个项目中使用 Git，假设每个人每天的提
tensorflow: 查看 tensor详细数值方法
问题 tensor详细数值不能直接print打印： ? 1
查看 MySQL 已经运行多长时间的方法
一，uptime 可以查看系统的运行时间 show global status like 'uptime'; 二，利用linux命令查看 Linux 下有个 uptime 可以查看系统的运行时
10、查看 XML 文件
在所有主流的浏览器中，均能够查看原始的 XML 文件不要指望 XML 文件会直接显示为 HTML 页面查看 XML 文件 <?xml version="1.0" e

首页

博学

6Ren·AI

商城

java - 无法查看通过 Spark SQL 创建的新数据