security - 保护 Apache Spark-6ren

security - 保护 Apache Spark

转载作者：行者123 更新时间：2023-12-03 06:22:31

25

4

我正在尝试弄清楚在共享集群上运行 Spark 作业时如何加强安全性。我了解如何确保未经授权的节点无法加入集群(设置共享 secret kerberos 身份验证)以及如何限制谁可以提交作业(在 yarn 下运行，然后使用 ranger 之类的东西来限制谁可以访问每个队列)。然而，我正在努力理解如何限制对 Spark 作业所需资源的访问。

如果我理解正确的话，工作节点上的所有 Spark 进程都将以 Spark 用户身份运行。据推测，spark 用户本身应该具有相当小的权限，但是问题就变成了如果你的 Spark 作业需要访问例如sql服务器。 The Spark security docs提及一个 key 存储。这是否意味着提交作业的用户可以使用 Spark-submit 传递主体和 key 表，该主体和 key 表可用于对外部资源进行身份验证，就像提交者发出请求一样。

后续问题是安全文档还提到临时文件(随机文件等)未加密。这是否意味着您必须假设 Spark 处理的任何数据可能会泄露给 Spark 集群的任何其他用户？如果是这样，是否可以使用他们建议的解决方法(对这些数据使用加密分区)来解决这个问题？我假设不是因为 Spark 用户本身必须有能力解密这些数据并且所有程序都以该用户身份运行....

最佳答案

I'm trying to work out how one might enforce security when running spark jobs on a shared cluster. I understand how one can ensure unauthorised nodes cannot join the cluster (setup shared secret kerberos auth) and how one can restrict who can submit jobs (run under yarn and then use something like ranger to restrict who can access each queue). I am however, struggling to understand how one might restrict access to resources needed by the spark job.

您可以使用 YARN 队列来执行此操作。每个队列可以具有最少量的可用资源。因此，您定义队列 ACL 以确保只有受信任的用户才会提交到队列，并定义该队列将拥有的最小资源量。

If I understand correctly all Spark processes on the worker nodes will run as the spark user.

你的理解不准确。启用 Kerberos 后(这是任何安全讨论的先决条件)，Spark 作业将以启动它们的 Kerberos 用户身份执行。对于此事有一个重要的警告 - Kerberos 用户名必须与操作系统用户名匹配。

Presumably the spark user itself should have pretty minimal permissions, however the question then becomes what to do if your spark job needs to access e.g. sql server. The Spark security docs make mention of a key store. Does that mean that a user submitting a job can pass through a principal and keytab with spark-submit which can be used to authenticate with the external resource as if it were the submitter making the request.

此 key 存储用于不同且非常具体的目的 - 支持 HTTP 通信的 TLS 加密(例如 Spark UI)。因此，您不能将其用作访问第三方系统的 secret 存储。总体而言，在 Hadoop 基础设施中，无法与作业共享凭证。因此，每次都要重新发明机制。由于作业将代表启 Action 业的用户在操作系统级别执行，因此您可以依靠操作系统控制将凭据分发给第三方资源(例如文件系统权限)。

A follow up question is that the security docs also mention that temporary files (shuffle files etc) are not encrypted. Does that mean that you have to assume that any data processed by spark may be potentially leaked to any other user of your spark cluster? If so is it possible to use their proposed workaround (use an encrypted partition for this data) to solve this? I'm assuming not as the spark user itself must have the ability to decrypt this data and all programs are runining as this user....

有几件事需要注意。首先，正如已经提到的，Kerberized 集群上的 Spark 作业将以启动该作业的用户身份执行。作业生成的所有临时文件都将具有文件系统权限，仅向特定用户和 yarn 组(仅包括 yarn 用户)授予访问权限。其次，磁盘加密可以保护您的磁盘不被窃取，但永远无法保证操作系统级别的攻击的安全性。第三，从 Spark 2.1 开始，可以使用临时文件加密。

如果您有兴趣更深入地了解 Spark-on-YARN 安全模型，我建议您阅读 Apache Spark on YARN Security Model Analysis (免责声明我是作者)。

关于security - 保护 Apache Spark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39888943/

25

4

0

文章推荐： netbeans - 如何在 Netbeans 工具栏中创建自定义按钮？

文章推荐： haskell - 幻象类型背后的动机？

文章推荐： generics - F# 中的严格泛型枚举转换

JavaScript 保护
我知道这有点愚蠢，但我需要保护 javascript，从某种意义上说，我希望增加尽可能多的安全性，以免它被盗版。好吧，因为它是系统的核心组件。我打算用YUI compressor来压缩混淆。但我还想
vba - 保护/取消保护图表工作表
因此，当我的宏运行时，我有这些简单的子程序可以解除保护而不是保护东西，唯一的问题是我的一些工作表实际上是图表，并且在调用这些子程序时它们没有得到保护。如何更改我的代码以合并图表？谢谢! Sub Unp
xss - csrf 保护
有很多关于 preventing CSRF 的文章. 但我就是不明白:为什么我不能只解析目标页面表单中的 csrf token 并将其与我的伪造请求一起提交？最佳答案如果您能够将脚本代码注入(in
encryption - 音频加密/保护
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
docker - 保护/加密敏感的环境变量
我正在使用一个包含用于docker创建的敏感信息的env文件。但问题是它们并不安全。可以通过docker inspect轻松查看它们，因此，任何可以运行docker命令的用户都可以使用它们。我正在
.net - 保护.NET框架
NSA在此处提供了保护.NET框架2.0版的指南:http://www.nsa.gov/ia/_files/app/I731-008R-2006.pdf 我想知道他们是否提供更高版本的指南，例如版本3
Java JAR 保护
我编写了一个 Java 应用程序，并计划在线发布它。每个版本都将使用我制作的 secret 序列 key 锁定。我需要从反编译器等保护我的 jar 文件。这是我到目前为止所做的: 用户在表格中输入他
PHP 保护 $_GET
我不知道为什么这不起作用。如果 ?Session=2 不是您发出的，那么您将返回您的帐户。这是我的代码: query("SELECT * FROM user_host WHERE uid = '"
security - 保护 Elasticsearch
我是 elasticsearch 的新手，但我非常喜欢它。我唯一找不到也无法完成的是保护生产系统的 Elasticsearch 。我读了很多关于在 elasticsearch 前使用 nginx 作为
C++ header 保护
假设我有以下头文件: #ifndef TESTCLASS_H #define TESTCLASS_H #include class TestClass { public: TestClass
C++ 虚拟 + 保护？
在 C++ 中，我有一个基类 A，一个子类 B。两者都有虚方法 Visit。我想在 B 中重新定义“访问”，但 B 需要访问每个 A(以及所有子类)的“访问”功能。我有类似的东西，但它告诉我 B 无
java - 保护 PDF
我目前正在使用 Apache FOP 库生成 PDF。我希望这些 PDF 免受复制粘贴，因此人们必须使用实际的 OCR 库(或手动输入)来获取 PDF 上的信息。 FOP 显然提供了一些安全性，然后将
php - 保护 JSONP？
我有一个使用 JSONP 进行跨域 ajax 调用的脚本。这很好用，但我的问题是，有没有办法阻止其他站点访问这些 URL 并从中获取数据？我基本上想制作一个允许的站点列表，并且只返回列表中的数据。我正
javascript 全局变量 - 保护
我在基于 Html/Javascript 构建的 Web 应用程序上使用了一些全局变量。我跨页面(或部分页面)使用这些变量，有时它们用作 ajax 调用的发布数据。我的问题是:这有多安全？当然，我可以
php - 保护/限制用户组功能的良好做法
我有一个扩展到多个类文件的大项目。这个项目是在赶时间前匆忙完成的。这对项目安全造成了影响。所以简单来说，理论上任何人都可以在我的项目中调用一个 AJAX 脚本并让它运行，因为脚本中的函数不是用户权限感
c# - 保护 DLL
相当多的人对 ivé 发送给他们的 dll 真正感兴趣，他们不是那种应该经常免费赠送的类型... 我只是想知道，如果我要出售我的组件、用户控件等，我将如何在所有权/加密代码(如果可能)等方面保护它们。
php - 保护 PHP 类免受意外实例化？
我正在开发一个 PHP 库，我们将在其中为客户提供加密代码。该代码将包括一个他们可以实例化的主要类，该类将处理许可证验证并公开其使用方法。主类将实例化几个子类，每个子类都包含在自己的文件中。我怎样才能
Laravel - 保护 API 路由
我有一个以 VUEJS 作为前端的 Laravel 应用程序，我通过创建 API 路由获取数据。因此，例如获取帖子数据的路线将是 http://localhost/api/posts 保护路线的最佳方
security - 保护 websockets 免受外部脚本的影响
在许多网页上，我们都包含外部脚本。无论是类似于 Facebook 的按钮、用于分析或广告系统的客户端代码、外部评论提供商还是其他东西。那些脚本无法访问我的 Ajax 资源，因为一直在检查原始 hea
php - 保护 secret 数据免遭泄露
我目前正在使用 PHP/MySQL 开发一个公开和开放源代码的软件。我在一个文件夹中有几个重要的 SECRET TXT 文件。我在软件中使用它们，但问题是它们也可以被任何知道文件夹和文件名的人读取:

首页

博学

6Ren·AI

商城

security - 保护 Apache Spark