hadoop - Spark : How to start remotely Jupyter in 'yarn_client' mode from a different user-6ren

hadoop - Spark : How to start remotely Jupyter in 'yarn_client' mode from a different user

转载作者：行者123 更新时间：2023-12-02 19:29:34

25

4

假设我有一个 4 节点 Hadoop 集群(在我的例子中是 Cloudera 发行版)，每个节点上都有一个名为“hadoop”的用户(“/home/hadoop”)。此外，我还有第五台服务器，上面安装了 Jupyter 和 Anaconda，用户名为“ipython”，但没有安装 hadoop。

假设我想通过保留“ipython”用户从第五台服务器以“yarn_client”模式远程启动 Jupyter，我的问题是我从日志中遇到了一个问题，即不允许用户“ipython”(或类似的东西)。

有关信息，我将一个虚拟目录(用于设置 HADOOP_CONF_DIR 环境变量)从 Hadoop 集群复制粘贴到第五台服务器。一切都适用于我的“kernel.json”文件中的“local [*]”设置(幸运的是)，但是当我将主值更改为“yarn_client”时问题又出现了(不幸的是)......

有解决这个问题的技巧吗？或者可能有几种不同的技巧？

最佳答案

我有一个使用 pyspark 和 scala native spark 的 CDH5.5 + jupyter 的工作部署。在我的情况下，我使用专用用户来启动 jupyter 服务器，然后从客户端浏览器连接到它。

在分享一些关于您的问题的想法之前，我想指出，如果您的第五台服务器没有紧密连接到您的集群，您应该避免在 yarn-client 模式下启动 pyspark，因为通信延迟肯定会减慢您的工作。据我所知，没有 pyspark-submit 就无法远程调用 yarn-cluster 模式。

如果您仍然希望您的驱动程序节点在第 5 个服务器中执行，请确保您的用户“ipython”具有访问 hdfs 和其他 hadoop conf 目录的正确权限，您可能需要在其他 hadoop 节点中创建该用户。

还要确保您的 yarn-conf.xml 已正确配置以反射(reflect)您的 yarn ResourceManager 的地址。

关于hadoop - Spark : How to start remotely Jupyter in 'yarn_client' mode from a different user，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33292063/

25

4

0

文章推荐： hadoop - 执行PIG脚本时出错

文章推荐： docker - 在Docker群上的多个容器中安装rexray/ceph卷

文章推荐： spring-saml - Spring Boot SAML 和 OKTA 的 SCIM 实现

文章推荐： docker - 通过命令行为Docker Compose创建自定义网络

hadoop - Spark : How to start remotely Jupyter in 'yarn_client' mode from a different user
假设我有一个 4 节点 Hadoop 集群(在我的例子中是 Cloudera 发行版)，每个节点上都有一个名为“hadoop”的用户(“/home/hadoop”)。此外，我还有第五台服务器，上面安装

首页

博学

6Ren·AI

商城

hadoop - Spark : How to start remotely Jupyter in 'yarn_client' mode from a different user