hadoop - SparkR 错误 : The root scratch dir:/tmp/hive on HDFS should be writable-6ren

hadoop - SparkR 错误 : The root scratch dir:/tmp/hive on HDFS should be writable

转载作者：可可西里更新时间：2023-11-01 16:38:00

我正在尝试初始化 SparkR，但出现权限错误。我的 Spark 版本是 spark-2.2.1-bin-hadoop2.6。我搜索了这个错误以及如何解决它，我发现了几个相关的主题。但是，我无法使用与这些主题相同的方法来解决它，他们提供的解决方案(以及我尝试过的解决方案)是使用以下命令授予/tmp/hive 目录权限:

sudo -u hdfs hadoop fs -chmod -R 777 /tmp/hive

有足够知识的人可以给我另一种可能的解决方案吗？

错误堆栈跟踪如下:

$ sudo ./bin/sparkR

R version 3.4.2 (2017-09-28) -- "Short Summer"
Copyright (C) 2017 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type 'license()' or 'licence()' for distribution details.

  Natural language support but running in an English locale

R is a collaborative project with many contributors.
Type 'contributors()' for more information and
'citation()' on how to cite R or R packages in publications.

Type 'demo()' for some demos, 'help()' for on-line help, or
'help.start()' for an HTML browser interface to help.
Type 'q()' to quit R.

Launching java with spark-submit command /opt/cloudera/parcels/spark-2.2.1-bin-hadoop2.6/bin/spark-submit   "sparkr-shell" /tmp/RtmpecLPo8/backend_port4be122057a03 
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
17/12/19 12:53:17 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/12/19 12:53:17 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.
17/12/19 12:53:23 ERROR RBackendHandler: getOrCreateSparkSession on org.apache.spark.sql.api.r.SQLUtils failed
java.lang.reflect.InvocationTargetException
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.api.r.RBackendHandler.handleMethodCall(RBackendHandler.scala:167)
    at org.apache.spark.api.r.RBackendHandler.channelRead0(RBackendHandler.scala:108)
    at org.apache.spark.api.r.RBackendHandler.channelRead0(RBackendHandler.scala:40)
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:357)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:343)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:336)
    at io.netty.handler.timeout.IdleStateHandler.channelRead(IdleStateHandler.java:287)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:357)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:343)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:336)
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:102)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:357)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:343)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:336)
    at io.netty.handler.codec.ByteToMessageDecoder.fireChannelRead(ByteToMessageDecoder.java:293)
    at io.netty.handler.codec.ByteToMessageDecoder.channelRead(ByteToMessageDecoder.java:267)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:357)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:343)
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:336)
    at io.netty.channel.DefaultChannelPipeline$HeadContext.channelRead(DefaultChannelPipeline.java:1294)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:357)
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:343)
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:911)
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131)
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:643)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:566)
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:480)
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:442)
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:131)
    at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:144)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder':
    at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$instantiateSessionState(SparkSession.scala:1062)
    at org.apache.spark.sql.SparkSession$$anonfun$sessionState$2.apply(SparkSession.scala:137)
    at org.apache.spark.sql.SparkSession$$anonfun$sessionState$2.apply(SparkSession.scala:136)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:136)
    at org.apache.spark.sql.SparkSession.sessionState(SparkSession.scala:133)
    at org.apache.spark.sql.api.r.SQLUtils$$anonfun$setSparkContextSessionConf$2.apply(SQLUtils.scala:71)
    at org.apache.spark.sql.api.r.SQLUtils$$anonfun$setSparkContextSessionConf$2.apply(SQLUtils.scala:70)
    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733)
    at scala.collection.Iterator$class.foreach(Iterator.scala:893)
    at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
    at scala.collection.IterableLike$class.foreach(IterableLike.scala:72)
    at scala.collection.AbstractIterable.foreach(Iterable.scala:54)
    at scala.collection.TraversableLike$WithFilter.foreach(TraversableLike.scala:732)
    at org.apache.spark.sql.api.r.SQLUtils$.setSparkContextSessionConf(SQLUtils.scala:70)
    at org.apache.spark.sql.api.r.SQLUtils$.getOrCreateSparkSession(SQLUtils.scala:63)
    at org.apache.spark.sql.api.r.SQLUtils.getOrCreateSparkSession(SQLUtils.scala)
    ... 36 more
Caused by: org.apache.spark.sql.AnalysisException: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------;
    at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:106)
    at org.apache.spark.sql.hive.HiveExternalCatalog.databaseExists(HiveExternalCatalog.scala:194)
    at org.apache.spark.sql.internal.SharedState.externalCatalog$lzycompute(SharedState.scala:105)
    at org.apache.spark.sql.internal.SharedState.externalCatalog(SharedState.scala:93)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.externalCatalog(HiveSessionStateBuilder.scala:39)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.catalog$lzycompute(HiveSessionStateBuilder.scala:54)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.catalog(HiveSessionStateBuilder.scala:52)
    at org.apache.spark.sql.hive.HiveSessionStateBuilder.catalog(HiveSessionStateBuilder.scala:35)
    at org.apache.spark.sql.internal.BaseSessionStateBuilder.build(BaseSessionStateBuilder.scala:289)
    at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$instantiateSessionState(SparkSession.scala:1059)
    ... 52 more
Caused by: java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------
    at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)
    at org.apache.spark.sql.hive.client.HiveClientImpl.<init>(HiveClientImpl.scala:191)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at org.apache.spark.sql.hive.client.IsolatedClientLoader.createClient(IsolatedClientLoader.scala:264)
    at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:362)
    at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:266)
    at org.apache.spark.sql.hive.HiveExternalCatalog.client$lzycompute(HiveExternalCatalog.scala:66)
    at org.apache.spark.sql.hive.HiveExternalCatalog.client(HiveExternalCatalog.scala:65)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply$mcZ$sp(HiveExternalCatalog.scala:195)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply(HiveExternalCatalog.scala:195)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply(HiveExternalCatalog.scala:195)
    at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:97)
    ... 61 more
Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------
    at org.apache.hadoop.hive.ql.session.SessionState.createRootHDFSDir(SessionState.java:612)
    at org.apache.hadoop.hive.ql.session.SessionState.createSessionDirs(SessionState.java:554)
    at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:508)
    ... 75 more
Error in handleErrors(returnStatus, conn) : 
  java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder':
    at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$instantiateSessionState(SparkSession.scala:1062)
    at org.apache.spark.sql.SparkSession$$anonfun$sessionState$2.apply(SparkSession.scala:137)
    at org.apache.spark.sql.SparkSession$$anonfun$sessionState$2.apply(SparkSession.scala:136)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:136)
    at org.apache.spark.sql.SparkSession.sessionState(SparkSession.scala:133)
    at org.apache.spark.sql.api.r.SQLUtils$$anonfun$setSparkContextSessionConf$2.apply(SQLUtils.scala:71)
    at org.apache.spark.sql.api.r.SQLUtils$$anonfun$setSparkContextSessionConf$2.apply(SQLUtils.scala:70)
    at scala.collection.TraversableLike$WithFilter$$anonfun$foreach$1.apply(TraversableLike.scala:733)
    at scala.collection.Iterator$class.foreach(Iterator.sca

hadoop fs -ls/tmp 的结果:

$ hadoop fs -ls /tmp
Found 5 items
drwxrwxrwx   - hdfs      supergroup          0 2017-12-19 14:47 /tmp/.cloudera_health_monitoring_canary_files
drwxr-xr-x   - yarn      supergroup          0 2017-11-07 12:36 /tmp/hadoop-yarn
drwx--x--x   - hbase     supergroup          0 2017-09-07 10:44 /tmp/hbase-staging
drwx-wx-wx   - josholsan supergroup          0 2017-12-19 13:09 /tmp/hive
drwxrwxrwt   - mapred    hadoop              0 2017-09-12 09:34 /tmp/logs

提前致谢!!!

最佳答案

由于您的错误权限与文件系统的输出不匹配，听起来您下载了 Spark 但没有配置它，因此它默认为本地磁盘

首先，尝试从 CDH 安装中单独使用 spark-shell 来运行 smoketest。

我认为 Cloudera 包括 SparkR(他们只是不正式支持它)。我看不出他们将其从安装中删除的原因。

My Spark Version is spark-2.2.1-bin-hadoop2.6.

您下载了包含 hadoop 的版本(基于文件名的末尾)。既然你说你在你的集群上设置它，你应该使用没有预编译 Hadoop 的下载选项。除非它实际上是一个 Cloudera 包裹，否则不要将它放在那个/opt/cloudera/parcels 目录中。

然后，一旦你有了它，将它解压到某个地方，然后打开 conf/spark-env.sh(将模板复制到这个文件)

更新值以至少包含与 CDH 附带的其他 Spark 安装相同的信息

确保 HADOOP_CONF_DIR 指向系统上 Hadoop 的配置目录。 /etc/hadoop/conf/

关于hadoop - SparkR 错误 : The root scratch dir:/tmp/hive on HDFS should be writable，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47886832/

文章推荐： hadoop - Hive - 如何复制事务表

文章推荐： html - 渐进式渲染是如何工作的？

文章推荐： python - httmock 在运行 tox 时不拦截 requests.send()

文章推荐： c++ - 如何在 VS2015 中重新定位 VS2017 解决方案？

sparkr - 在 SparkR 中使用应用函数
我目前正在尝试使用 sparkR 1.5.1 版实现一些功能。我看过较旧的(1.3 版)示例，其中人们在 DataFrames 上使用了 apply 函数，但看起来这不再直接可用。例子: x = c(
sparkr - 带有 sparkr 的 zeppelin 没有将数据帧显示为表格
zeppelin R 解释器文档说明: If you return a data.frame, Zeppelin will attempt to display it using Zeppelin's
sparkr - 有谁知道如何从 hbase 表在 sparkR 中创建数据框？
我正在尝试使用存储在 hbase 中的数据在 sparkR 中创建一个 spark 数据框。有谁知道如何在 SQLontext 中指定数据源参数或任何其他方式来解决这个问题？最佳答案您可能想看看
sparkr - 在 RStudio 中启动 SparkR 时如何解决 (javaVersionNum != sparkJavaVersion)
我收到以下错误: Error in if (javaVersionNum != sparkJavaVersion) { : missing value where TRUE/FALSE needed
apache-spark - RStudio 中 sparkR.init(master ="local") 中的 SparkR 错误
我已将 Spark 发行版中的 SparkR 包安装到 R 库中。我可以调用以下命令，它似乎可以正常工作:library(SparkR) 但是，当我尝试使用以下代码获取 Spark 上下文时， sc
r - 如何在 EMR 集群上使用 Spark-Submit 或 SparkR 运行 SparkR 脚本？
我编写了一个 SparkR 代码，想知道是否可以在 EMR 集群上使用 Spark-submit 或 SparkR 提交它。我尝试过多种方法，例如:sparkR mySparkRScript.r 或
对列中的值进行四舍五入 - SparkR
我在数据框中的一列中有以下值 231204.66666666666 376.0 346593.5 802.0
r - SparkR:如何提取特定列中包含空值的行
免责声明:我几乎没有使用 SparkR 的经验采用以下数据框: ID Date1 Date2 58844880 04/11/16 NaN 59745846
r - SparkR - 将数据帧转换为向量
我正在探索 SparkR 以计算统计数据，例如分位数、平均值、类别频率(源文件为 Amazon S3 - csv 格式)。我能够解析 csv 文件并创建数据框。但是，我无法将此 spark-data
r - SparkR 合并而不创建重复列
我决定提出这个问题是因为 the answer provided to a very similar问题不适用于我的场景: 我想合并这两个 SparkR 数据帧 df1 col1 col2
r - 并行化不工作 sparkR
当我运行下面的代码时: rdd <- lapply(parallelize(sc, 1:10), function(x) list(a=x, b=as.character(x))) df <- cre
join - SparkR:在多个连接条件下连接两个数据帧
SparkR 版本 1.4.1 我正在尝试在两个连接条件下连接两个数据帧 df1 和 df2: df3 <- join(df1, df2, df1$col1==df2$col2 && df1$col3
r - SparkR 中将字符串转换为日期时间？
我有一个从 MySQL 上传到 SparkR 的 Formal Class DataFrame 对象(通过 json 文件)，其中包含如下格式的字符串: “2012-07-02 20:14:00” 我
R SparkR - 相当于熔化函数
SparkR库中有没有类似melt的函数？将 1 行 50 列的数据转换为 50 行 3 列？最佳答案 SparkR 中没有提供类似功能的内置函数。您可以使用 explode 构建自己的 libr
r - SparkR 中将字符串转换为日期时间？
我有一个从 MySQL 上传到 SparkR 的 Formal Class DataFrame 对象(通过 json 文件)，其中包含如下格式的字符串: “2012-07-02 20:14:00” 我
r - 将 sparkr 收集到数据框中
我正在将一些数据加载到 sparkR(Spark 版本 1.4.0，在 fedora21 上运行)，我在上面运行一些算法，生成三个不同的数字。我的算法需要一堆参数，我想在相同数据上运行不同的参数设置。
r - 解码 SparkR 数据框
我有一个 spark 数据框: library(SparkR); library(magrittr) as.DataFrame(mtcars) %>% groupBy("am") 如何取消对这个
r - sparkR sql() 返回字符串
我们在服务器上保存了 parquet 数据，我正在尝试通过以下方式使用 SparkR sql() 函数 df SELECT * FROM parquet.` SELECT * FROM table"
r - 使用输入向量 SparkR 按多列分组
我正在使用 SparkR 2.1.0 进行数据操作我想以编程方式按多列分组。我知道如果我单独列出它们，或者从向量中引用它们的位置，我可以按多列分组......但我希望能够将列列表作为向量传递(这样，
r - 为什么在 SparkR 中收集这么慢？
我有一个位于 Parquet 文件中的 500K 行 spark DataFrame。我正在使用 spark 2.0.0 和 SparkR Spark(RStudio 和 R 3.3.1)中的软件包，

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - SparkR 错误 : The root scratch dir:/tmp/hive on HDFS should be writable