apache-spark - 将环境变量传递给 YARN 容器-6ren

apache-spark - 将环境变量传递给 YARN 容器

转载作者：可可西里更新时间：2023-11-01 16:36:20

24

4

我们有一个复杂的环境，它使用多种技术计算日常任务:SPARK PY-SPARK Java MapReduce 和 HIVE。

最近我们集成了一个新系统，可以在运行时对服务进行动态解析。该系统在任务初始化之前(动态地)更新环境变量。

有一个库可以读取环境变量并对其进行处理(无关紧要)。因此，每个任务在其执行器/映射器/缩减器环境中都需要这个环境变量。

我们的任务由 YARN 资源管理器管理。

总结一下，我想传递 YARN 环境变量，它将在所有容器(ApplicationMaster 和执行器/映射器/缩减器)上公开。

到目前为止我尝试过的事情:

SPARK - 我玩过:

spark-submit --conf spark.yarn.appMasterEnv.KEY=Value

这实际上将 env 变量暴露给应用程序主控而不是执行器，因此如果 UDF 函数试图找到它，它将失败。

一个可能的解决方案是使用:

spark.executorEnv.[EnvironmentVariableName]

在 MapReduce 中，我有点迷路了，我没有找到一种方法来传递环境变量

hadoop jar

我能做的最好的事情是在 conf 文件上传递变量，而不是使用 java 代码公开它。将它暴露给我使用的映射器/缩减器:

mapreduce.map/reducer.env

这种方法不好，因为它让我修改我所有的 MapReduce 作业

所以我决定通过 yarn 容器来处理它。然而，经过几天的实验，我得到了零结果。所以我的问题。有没有办法通过 spark-submit 和 hadoop jar 操纵 yarn 来用我的额外环境变量初始化它的容器

例如

hadoop jar -Dyarn.expose.this.variable=value

我也很乐意接受答案，如果它只解决 MapReduce 的方式让我在不改变 MapReduce 代码的情况下公开 env 变量。

最佳答案

我想你正在寻找这些

yarn.app.mapreduce.am.env
mapreduce.map.env
mapreduce.reduce.env

搜索关于 https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml 的描述

具体来说，它表示如果您设置 -Dmapreduce.map.env='A=foo'，那么它会将 A 环境变量设置为“foo”

那些将被传递到 YARN 容器。

This approach is not good for because it makes me modify all my MapReduce Jobs

我确定我了解您如何避免以其他方式更改代码。需要修改一些库以读取环境或以其他方式定义的属性

Recently we integrated a new system which make dynamic resolution for services in runtime

我想我已经看到了 Zookeeper/Consul/Etcd 的动态配置设置；但是我还没有看到 Docker 容器标签之外的 YARN 环境特定的东西，例如

关于apache-spark - 将环境变量传递给 YARN 容器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51968796/

24

4

0

文章推荐： angular - angular-cli "localhost:4200"没有访问控制允许来源

文章推荐： hadoop - cp 命令在 Hadoop 中如何工作？

Grails 环境
我在文档中找不到答案，所以我在这里问。在 Grails 中，当您创建应用程序时，您会默认获得生产、开发等环境。如果您想为生产构建 WAR，您可以运行以下任一命令: grails war 或者 gr
Sitecore 环境
我们组织的网站正在迁移到 Sitecore CMS，但我们正在努力以某种方式为开发人员 (4)、设计师 (4)、QA 人员 (3)、作者 (10-15) 和批准者 (4-10) 设置环境在他们可以独立
CVSROOT 环境
如何在WinCVS中设置CVSROOT环境变量？最佳答案简单的回答是:您不需要。 CVSROOT 环境变量被高估了。 CVS(NT) 只会在确定存储库连接字符串的所有其他方法都已用尽时才使用它。人
haskell 环境
我最近完成了“learnyouahaskell”一书，现在我想通过构建 yesod 应用程序来应用我所学到的知识。但是我不确定如何开始。关于如何设置 yesod 项目似乎有两个选项。一是Stack
C# 环境
在这一章中，我们将讨论创建 C# 编程所需的工具。我们已经提到 C# 是 .Net 框架的一部分，且用于编写 .Net 应用程序。因此，在讨论运行 C# 程序的可用工具之前，让我们先了解一下 C#
03、Ruby 环境
运行Ruby 代码需要配置 Ruby 编程语言的环境。本章我们会学习到如何在各个平台上配置安装 Ruby 环境。各个平台上安装 Ruby 环境 Linux/Unix 上的 Ruby 安装
ide - 最佳移动应用程序开发工具/环境？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
r - 返回和保存时如何清理函数闭包(环境)？
我有一个这样的计算(请注意，这只是非常简化的、缩减版的、最小的可重现示例!): computation <- function() # simplified version! { # a lo
R 环境/哈希表随着增长到数百万而变慢
我使用环境作为哈希表。键是来自常规文本文档的单词，值是单个整数(某个其他结构的索引)。当我加载数百万个元素时，更新和查找都变慢了。下面是一些代码来显示行为。看起来从一开始的行为在 O(n) 中比在
可重现的 saveRDS 环境
我正在构建一个 R 包并使用 data-raw和 data存储预定义的库 RxODE楷模。这非常有效。然而，由此产生的.rda文件每代都在变化。某些模型包含 R 环境，并且序列化似乎包含“创建时间”
Xcode 环境——快捷方式和缩进实用程序
(不确定问题是否属于这里，所以道歉是为了) 我很喜欢 Sublime Text ，我经常发现 Xcode 缺少一些文本/数据处理的东西。我可能有不止一个问题—— 'Command +/' 注释代码但没
Symfony - 仅在开发中定义路线。环境
我正在使用 SF2，并且创建了一些有助于项目调试的路由: widget_debug_page: path: /debug/widget/{widgetName} defau
django - conda 环境
我创建了一个名为 MyDjangoEnv 的 conda 环境。当我尝试使用 source activate MyDjangoEnv 激活它时，出现错误: No such file or direct
javascript - Cordova 环境
有没有办法区分从本地机器运行的包和从 Cordova 应用商店安装的包？例如，我想像这样设置一个名为“evn”的 JavaScript 变量: if(cordovaLocal){ env = 'de
足够困难地学习的 C 环境
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
Java 初学者网络开发工具包/环境
我的任务是使用 java 和 mysql 开发一个交互式网站:使用 servlet 检索和处理数据，applet 对数据客户端进行特殊处理，并处理客户端对不同数据 View 的请求。对于使用 jav
Linux 环境 -i 奇怪
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
R:列表中的快速哈希搜索(环境)
我想进行非常快速的搜索，看来使用哈希(通过环境)是最好的方法。现在，我得到了一个在环境中运行的示例，但它没有返回我需要的内容。这是一个例子: a system.time(benchEnv(), g
Windows 环境 OpenACC
我想开始开发 OpenACC 程序，我有几个问题要问:是否可以在 AMD gpu 上执行 OpenACC 代码？如果是这样，我正在寻找适用于 Windows 环境的编译器。我花了将近一个小时什么也没
Linux 环境。让机器变慢
这可能看起来很奇怪，但是有没有办法制作机器(linux/unix 风格 - 最好是 RHEL)。我需要控制机器的速度以确保代码在非常慢的系统上工作并确定正确的断点(在时间方面)。我能做到的一种方法是

首页

博学

6Ren·AI

商城

apache-spark - 将环境变量传递给 YARN 容器