apache-spark - Spark saveAsTable 的位置位于 s3 存储桶的根本原因 NullPointerException-6ren

apache-spark - Spark saveAsTable 的位置位于 s3 存储桶的根本原因 NullPointerException

转载作者：行者123 更新时间：2023-12-02 18:56:18

27

4

我正在使用 Spark 3.0.1，我的分区表存储在 s3 中。请在此处找到问题的描述。
创建表

Create table root_table_test_spark_3_0_1 (
    id string,
    name string
)
USING PARQUET
PARTITIONED BY (id)
LOCATION  's3a://MY_BUCKET_NAME/'

在第二次运行时导致 NullPointerException 的代码

Seq(MinimalObject("id_1", "name_1"), MinimalObject("id_2", "name_2"))
      .toDS()
      .write
      .partitionBy("id")
      .mode(SaveMode.Append)
      .saveAsTable("root_table_test_spark_3_0_1")

当 Hive 元存储为空时，一切正常，但当 spark 尝试执行 getCustomPartitionLocations 时，问题正在发生。在 InsertIntoHadoopFsRelationCommand阶段。 (例如第二次运行)
实际上它调用了以下方法:来自( org.apache.hadoop.fs.Path)

/** Adds a suffix to the final name in the path.*/
public Path suffix(String suffix) {
    return new Path(getParent(), getName()+suffix);
}

但是 getParent()当我们位于 root 时将返回 null，从而导致 NullPointerException。我目前正在考虑的唯一选择是重写此方法以执行以下操作:

/** Adds a suffix to the final name in the path.*/
public Path suffix(String suffix) {
    return (isRoot()) ? new Path(uri.getScheme(), uri.getAuthority(), suffix) : new Path(getParent(), getName()+suffix);
}

任何人在 LOCATION 时遇到问题一个 Spark hive 表是在根级别？任何解决方法？是否有任何已知问题已打开？
我的运行时不允许我覆盖 Path 类并修复 suffix方法，我无法从存储桶的根目录中移动我的数据，因为它已经存在 2 年了。
出现问题是因为我正在从 Spark 2.1.0 迁移到 Spark 3.0.1，并且检查自定义分区的行为出现在 Spark 2.2.0 ( https://github.com/apache/spark/pull/16460) 中
整个上下文有助于理解问题，但基本上你可以轻松地重现它

val path: Path = new Path("s3a://MY_BUCKET_NAME/")
println(path.suffix("/id=id"))

供引用。 hadoop-common 版本是 2.7.4，请在此处找到完整的堆栈跟踪

NullPointerException
at org.apache.hadoop.fs.Path.<init>(Path.java:104)
    at org.apache.hadoop.fs.Path.<init>(Path.java:93)
    at org.apache.hadoop.fs.Path.suffix(Path.java:361)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.$anonfun$getCustomPartitionLocations$1(InsertIntoHadoopFsRelationCommand.scala:262)
    at scala.collection.TraversableLike.$anonfun$flatMap$1(TraversableLike.scala:245)
    at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62)
    at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49)
    at scala.collection.TraversableLike.flatMap(TraversableLike.scala:245)
    at scala.collection.TraversableLike.flatMap$(TraversableLike.scala:242)
    at scala.collection.AbstractTraversable.flatMap(Traversable.scala:108)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.getCustomPartitionLocations(InsertIntoHadoopFsRelationCommand.scala:260)
    at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:107)
    at org.apache.spark.sql.execution.datasources.DataSource.writeAndRead(DataSource.scala:575)
    at org.apache.spark.sql.execution.command.CreateDataSourceTableAsSelectCommand.saveDataIntoTable(createDataSourceTables.scala:218)
    at org.apache.spark.sql.execution.command.CreateDataSourceTableAsSelectCommand.run(createDataSourceTables.scala:166)

谢谢

最佳答案

看起来像 Spark 代码调用 Path.suffix("something) 的情况并且因为根路径没有父路径，所以会触发 NPE
长期修复

针对 HADOOP 在 issues.apache.org 上提交 JIRA；为修复后缀()提供一个带有测试的补丁，以便在根路径上调用时正确降级。最适合所有人

不要将根路径用作表的目标。

做这两个

选项#2 应该避免其他关于如何创建/提交表等的意外......某些代码可能会失败，因为尝试删除路径的根目录(此处为 s3a://some-bucket")不会删除根，会吗？
换句话说:根目录到处都有“奇怪”的语义；大多数时候你不会在本地 FS 上注意到这一点，因为你从不尝试使用/作为工作的目的地，惊讶于 rm -rf/与 rm -rf/subdir 等不同。 Spark、Hive 等从来没有写过使用/作为工作的目的地，所以你可以看到失败。

关于apache-spark - Spark saveAsTable 的位置位于 s3 存储桶的根本原因 NullPointerException，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64287641/

27

4

0

文章推荐： maven - 使用Maven的Windows 10上的Docker

文章推荐： java - HDFS文件编码转换器

文章推荐： docker - 如何将Docker容器的根目录作为NFS挂载点挂载

文章推荐： hadoop - Hadoop distcp从prem复制到gcp奇怪的行为

javascript - 位于 for-each 中的记录器的引用错误
我正在使用 javascript 并有以下类: const Product = require('../models').Product class ProductService { cons
Django NoReverseMatch 位于/display/
我正在开发一个简单的应用程序，宠物用户可以在其中创建关于他们宠物的板并在板上显示图片。我正在尝试创建一个功能，用户可以点击他们的图板，将他们重定向到他们的图板，该图板将显示他们所有的宠物图片。当我
javascript - $.ajax 位于 $.each 阻塞浏览器中
我有这样的事情:循环遍历 ids，并对每个 ids 向服务器(同一域)发出 ajax 请求 (async:true) 并将接收到的数据附加到 DOM 元素。这不是一项艰巨的任务，它确实有效。示例代码:
python - Django NoReverseMatch 位于/
我正在尝试使用 Pillow 在我的网络应用程序中添加用户可上传的图像。我创建了一个 Django Upload 模型并将其注册到 Admin 中。当我使用管理控制台添加照片后，我收到以下错误。最初该
C:位于 "printf"的神秘核心转储
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
swift - 位于 View 顶部的导航栏
说到 UINavigationBar 时我有点困惑。我以编程方式设置它，它的作用是将我的 viewController 向下推(因此在启动应用程序后看不到 Storyboard中看到的 View 底部
MySQL - GROUP_CONCAT 位于 WHERE |小于或大于值
我有以下查询，它可以满足我的要求，并显示从出生日期转换而来的人们的年龄。但我现在想通过说大于或小于这些年龄来缩小结果范围，但我不知道该怎么做。 SELECT u.`id` as `user_id`
java - 位于 ListView 行中的按钮总是在最后一行触发
我有一个 ListView (不是 recyclerView)，其中每一行都有一个按钮、几个 TextView 和一个 EditText。单击特定按钮(“editTremp”)后，我希望 EditTe
ios - 位于 cellAtIndexPath 中的查询
我的 cellAtIndexPath 中有一个查询。正如常见的那样，此查询从单元格行索引处的数组中获取对象。我想知道每次加载 tableView 时是否只有一个查询，还是将其算作每个 indexPat
css - 位于 float 元素旁边时的列表项剪辑
我目前正在探索 http://www.ecovivo.be/rubriek/food 上使用的模板中的错误. 问题:访问该链接时，您会注意到右侧有一个带有内容的大型 float 图像。现在一切正常。但
arrays - 数组和删除的地址(位于 :) IOS
我在 ViewController 之间通过引用传递特定模型的数组。如果我更改数组中特定元素的任何值，它会在所有 ViewController 中很好地反射(reflect)，但是当我从该数组中删除
html - 位于 svg 上方的元素不可点击
svg 包含更多元素，其中之一是下拉选择器。我遇到的问题是选择器只能在其顶部边缘被点击，而不能在选择器的其他任何地方被点击。选择器称为 yp-date-range-selector。在下一张图片中，
html - 位于 flex 容器中心的按钮太窄
我的元素使用 20 行 20 列的 css 网格布局(每个单元格占屏幕的 5%)。其中一个页面有一个按钮。最初该页面包含在网格第 5-8 列和网格第 6-9 行中，按钮本身没有问题，但我需要将其居中放
jquery - 位于 div 中心的图像未知高度宽度
我想使用 CSS Trick 使图像居中.但是如果图像大小是随机的(不固定的)怎么办。令人惊讶的是，我不想保持图像响应，我想在不改变其宽度或高度(实际像素)的情况下将图像置于中心。下面是我的代码:
python - NoReverseMatch 位于/产品/
我正在尝试在网址之间进行路由。产品是一个类: from django.db import models from django.urls import reverse # Create your mo
python - NoReverseMatch 位于/polls/
我正在通过查看 Django 教程来制作网站。我收到一个错误: NoReverseMatch at /polls/ Reverse for 'index' with no arguments not
python - TemplateDoesNotExist 位于/polls/
我一直在试用 Django 教程 Django Tutorial Page 3并遇到了这个错误 "TemplateDoesNotExist at /polls/ " . 我假设问题出在我的代码指向模板
ios - 位于 IB 中可见但在运行时中不可见的单独包中的资源
我有一个应用程序，其中大部分图像资源都存储在单独的资源包中(这样做是有正当理由的)。这个资源包与主应用程序包一起添加到项目中，当我在 Interface Builder 中设计我的 NIB 时，所有这
ios - KERN_INVALID_ADDRESS 位于 0x0000000000000000
我使用 Xcode 6.3.2 开发了一个 iPad 应用程序。我将我的应用程序提交到 App Store 进行审核，但由于崩溃而被拒绝。以下是来自 iTunes 的崩溃报告。 Incident Id
html - 位于 div 顶部的伪元素水平滚动条
我正在使用以下内容来显示水平滚动条: CSS: div { width: 300px; overflow-x: scroll; } div::-webkit-scrollbar {

首页

博学

6Ren·AI

商城

apache-spark - Spark saveAsTable 的位置位于 s3 存储桶的根本原因 NullPointerException