pyspark - AWS EMR 集群中的权限被拒绝 : user=zeppelin while using %spark. pyspark 解释器-6ren

pyspark - AWS EMR 集群中的权限被拒绝 : user=zeppelin while using %spark. pyspark 解释器

转载作者：行者123 更新时间：2023-12-02 18:06:50

我已经创建了 pyspark 结构化流程序并尝试在 Zeppelin 笔记本中执行:

%spark.pyspark 

query_window = windowedCounts \ 
                 .writeStream \ 
                 .outputMode("complete") \ 
                 .format("memory") \ 
                 .queryName("myTable_window") \ 
                 .start()

我收到以下错误:

Py4JJavaError: An error occurred while calling o191.start.
: org.apache.hadoop.security.AccessControlException: Permission denied: user=zeppelin, access=WRITE, inode="/mnt/tmp/temporary-e0cf0f09-a6f4-44d6-9a72-324660085608/metadata":hdfs:hadoop:drwxr-xr-x

我在 AWS EMR 集群中使用 Zeppelin Notebook 版本 0.7.1。

非常感谢您的帮助。

完整堆栈跟踪:

Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark-8165971491474576109.py", line 349, in <module>
    raise Exception(traceback.format_exc())
Exception: Traceback (most recent call last):
  File "/tmp/zeppelin_pyspark-8165971491474576109.py", line 342, in <module>
    exec(code)
  File "<stdin>", line 5, in <module>
  File "/usr/lib/spark/python/pyspark/sql/streaming.py", line 816, in start
    return self._sq(self._jwrite.start())
  File "/usr/lib/spark/python/lib/py4j-0.10.4-src.zip/py4j/java_gateway.py", line 1133, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/pyspark/sql/utils.py", line 63, in deco
    return f(*a, **kw)
  File "/usr/lib/spark/python/lib/py4j-0.10.4-src.zip/py4j/protocol.py", line 319, in get_return_value
    format(target_id, ".", name), value)
Py4JJavaError: An error occurred while calling o191.start.
: org.apache.hadoop.security.AccessControlException: Permission denied: user=zeppelin, access=WRITE, inode="/mnt/tmp/temporary-e0cf0f09-a6f4-44d6-9a72-324660085608/metadata":hdfs:hadoop:drwxr-xr-x
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:320)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1728)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1712)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1695)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:2515)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInt(FSNamesystem.java:2450)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:2334)
    at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:624)
    at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:397)
    at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2045)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:106)
    at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:73)
    at org.apache.hadoop.hdfs.DFSOutputStream.newStreamForCreate(DFSOutputStream.java:1653)
    at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1689)
    at org.apache.hadoop.hdfs.DFSClient.create(DFSClient.java:1624)
    at org.apache.hadoop.hdfs.DistributedFileSystem$7.doCall(DistributedFileSystem.java:448)
    at org.apache.hadoop.hdfs.DistributedFileSystem$7.doCall(DistributedFileSystem.java:444)
    at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)
    at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:459)
    at org.apache.hadoop.hdfs.DistributedFileSystem.create(DistributedFileSystem.java:387)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:915)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:896)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:793)
    at org.apache.hadoop.fs.FileSystem.create(FileSystem.java:782)
    at org.apache.spark.sql.execution.streaming.StreamMetadata$.write(StreamMetadata.scala:76)
    at org.apache.spark.sql.execution.streaming.StreamExecution$$anonfun$5.apply(StreamExecution.scala:102)
    at org.apache.spark.sql.execution.streaming.StreamExecution$$anonfun$5.apply(StreamExecution.scala:100)
    at scala.Option.getOrElse(Option.scala:121)
    at org.apache.spark.sql.execution.streaming.StreamExecution.<init>(StreamExecution.scala:100)
    at org.apache.spark.sql.streaming.StreamingQueryManager.createQuery(StreamingQueryManager.scala:232)
    at org.apache.spark.sql.streaming.StreamingQueryManager.startQuery(StreamingQueryManager.scala:269)
    at org.apache.spark.sql.streaming.DataStreamWriter.start(DataStreamWriter.scala:227)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
    at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:357)
    at py4j.Gateway.invoke(Gateway.java:280)
    at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
    at py4j.commands.CallCommand.execute(CallCommand.java:79)
    at py4j.GatewayConnection.run(GatewayConnection.java:214)
    at java.lang.Thread.run(Thread.java:745)
Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=zeppelin, access=WRITE, inode="/mnt/tmp/temporary-e0cf0f09-a6f4-44d6-9a72-324660085608/metadata":hdfs:hadoop:drwxr-xr-x
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:320)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.check(FSPermissionChecker.java:292)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:213)
    at org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkPermission(FSPermissionChecker.java:190)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1728)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkPermission(FSDirectory.java:1712)
    at org.apache.hadoop.hdfs.server.namenode.FSDirectory.checkAncestorAccess(FSDirectory.java:1695)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:2515)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInt(FSNamesystem.java:2450)
    at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:2334)
    at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.create(NameNodeRpcServer.java:624)
    at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.create(ClientNamenodeProtocolServerSideTranslatorPB.java:397)
    at org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$ClientNamenodeProtocol$2.callBlockingMethod(ClientNamenodeProtocolProtos.java)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:616)
    at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:982)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2049)
    at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:2045)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
    at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2045)
    at org.apache.hadoop.ipc.Client.call(Client.java:1475)
    at org.apache.hadoop.ipc.Client.call(Client.java:1412)
    at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:229)
    at com.sun.proxy.$Proxy12.create(Unknown Source)
    at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.create(ClientNamenodeProtocolTranslatorPB.java:296)
    at sun.reflect.GeneratedMethodAccessor14.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:191)
    at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102)
    at com.sun.proxy.$Proxy13.create(Unknown Source)
    at org.apache.hadoop.hdfs.DFSOutputStream.newStreamForCreate(DFSOutputStream.java:1648)
    ... 30 more

最佳答案

writeStream 查询似乎正在尝试将 checkpointLocation 写入云 HDFS，而 zeppelin 在写入云 HDFS 时出现问题。

通过将检查点位置添加到 S3 上的某个位置可以解决该问题。

query_window = windowedCounts \ 
            .writeStream \
            .outputMode("complete") \
            .format("memory") \
            .queryName("myTable_window") \
            .option("checkpointLocation","path_on_s3") \
            .start()

关于pyspark - AWS EMR 集群中的权限被拒绝 : user=zeppelin while using %spark. pyspark 解释器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44223708/

文章推荐： delphi - Delphi 11 可以使用 GIF 吗？

文章推荐： Github 组织名称更改不会更改 URL 路由字符串

文章推荐： couchdb - 具有部分读者访问权限的 Couchapp

apache-zeppelin - Apache Zeppelin - zeppelin.cmd 没有显示结果
我在 Windows 10 上的 0.81 Apache Zeppelin 上解压了完整版本。我导航到 C:\Zeppelin\bin 并输入 zeppelin.cmd 在 C:\Zeppelin\b
apache-zeppelin - 在 Apache Livy Interpreter for Zeppelin 中访问 zeppelin 上下文的问题
是否可以在 Livy Interpreter for Zeppelin 中访问 zeppelin context (z)？如果是，那么如何访问它。如果不是，这是否意味着 Livy 中的 zeppeli
apache-zeppelin - Zeppelin 可以自定义皮肤吗？
Zeppelin 可以自定义皮肤吗？换句话说，将 Zeppelin 的标志换成别的东西？最佳答案正如 bzz 的回答中已经提到的:可以自定义 zeppelin 的 UI。以下是更多细节: 查看 z
apache-zeppelin - Zeppelin 没有口译员
我刚刚在我的 Mac (Yosemite 10.10.3) 上安装了以下内容: oracle java 1.8 更新 45 斯卡拉 2.11.6 spark 1.4(预编译版本:http://d3kb
apache-zeppelin - Apache zeppelin 进程死了
我正在尝试在带有 Hadoop 1.0.3 和 Spark 1.4.0 的 Ubuntu14 上运行 zeppelin。我已经完成了源代码的构建，并且所有的包都成功地完成了构建。但是当我运行守护进程
apache-zeppelin - 如何在 Zeppelin 笔记本中的段落之间互连或添加相关性
我有一个 Zeppelin 笔记本“测试”。这个笔记本有 2 个段落，如下所示 1. %spark import statements; val df=sqlContext.read.format..
apache-zeppelin - 在 Zeppelin 中禁用目录列表
是否有人禁用了中的目录列表？齐柏林飞艇 0.6.0 (或其他版本)作为安全措施的一部分？你能不能让我知道同样的事情。最佳答案在“How to disable directory listing
apache-zeppelin - Apache Zeppelin - 设置默认解释器
在 Zeppelin 中，在每一行我都必须在每一行提供解释器。有没有办法为整个 session 设置解释器。 %pyspark import re 用了 0 秒。 import pandas as p
apache-zeppelin - Apache Zeppelin - 日期选择器
我已将 Zeppelin 连接到 MySQL 数据库。我可以检索数据，但是有问题。如何在 Zeppelin 中创建允许用户通过选择日期范围来检索数据的 SQL？最佳答案 Zeppelin 没有“
apache-zeppelin - 在 windows 上安装 zeppelin
我已经安装了 spark，我正在尝试运行 zeppelin，但就是没有运行。 Error while running Zepplin 我将其用作 JAVA_HOME，如“C:\Program File
apache-zeppelin - 如何从命令行运行 zeppelin notebook(自动)
我们如何从命令行运行笔记本？除了 1，我如何将命令行参数传递到笔记本中？ IE。从笔记本代码中访问命令行参数？最佳答案所以我遇到了同样的问题，并设法弄清楚如何使用 API 来使用 curl 运行
apache-zeppelin - 在 Zeppelin jdbc 解释器中使用日期选择器
我的 Zeppelin 笔记本中有一组图表，它们使用 jdbc interperter 从数据库中获取一段时间的数据。我想做的是能够选择一个适用于所有图表的时期。我可以看到可以使用 Dynamic
apache-zeppelin - Zeppelin 笔记可以和 git 集成吗？
是否可以将 Zeppelin 笔记与 git 集成？人们可以设置存储库位置，但如何将其设置为远程 git 存储库。不过，此功能可在 Amazon EMR 上使用最佳答案是的。这是可能的我使用以
apache-spark - Zeppeline - 如何设置 Zeppeline 以连接到远程 sparkmaster？
我在一组单独的主机上有 5 个节点的 spark 集群。我在单独的主机上安装了 zeppeline，并连接了 spark 解释器以针对 spark 集群执行查询。 Zeppeline 版本 1.6 -
apache-zeppelin - 使用 zeppelin 在 csv 中导出数据
我需要从 zeppelin 中的 %sql 解释器以 csv 格式导出数据。我怎么能这样做？我需要添加一个按钮，然后单击它应该将数据导出到 csv 中，如客户端 sql 解释器中 zeppelin
apache-zeppelin - Apache Zeppelin 安装 grunt 构建错误
我的配置如下: Ubuntu 15.04 Java 1.7 Spark 1.4.1 Hadoop 2.7 Maven 3.3.3 我正在尝试从 github 成功克隆并使用以下命令安装 Apache
apache-zeppelin - z.load in apache zeppelin 导致错误
我正在 apache zeppelin 中尝试 z.load 如下: %dep z.load("/zeppelin-0.5.6-incubating-bin-all/lplibs/hive/csv-s
apache-zeppelin - 如何在 Zeppelin 中使用 Angular Controller
我是 Zeppelin 的新手，最近我正在研究如何在我当前的项目中使用 Zeppelin。我想在 Zeppelin 段落中添加一个 Angular Controller 。但它失败了。你能给我一些解决
hadoop - ZEPPELIN:无法找到或加载主类org.apache.zeppelin.server.ZeppelinServer
我有 OS Red Hat Enterprise Linux Server release 7.4 (Maipo) Ambari Version 2.5.1.0 HDP 2.6 尝试启动Zeppeli
apache-zeppelin - Zeppelin - 将变量从 Spark 传递到 Markdown 以生成动态叙述文本
是否可以将变量从 Spark 解释器(pyspark 或 sql)传递给 Markdown？要求是显示格式良好的文本(即 Markdown)，例如“20 个事件发生在 2017-01-01 和 201

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

pyspark - AWS EMR 集群中的权限被拒绝 : user=zeppelin while using %spark. pyspark 解释器