gpt4 book ai didi

security - 保护 Apache Spark

转载 作者:行者123 更新时间:2023-12-03 06:22:31 25 4
gpt4 key购买 nike

我正在尝试弄清楚在共享集群上运行 Spark 作业时如何加强安全性。我了解如何确保未经授权的节点无法加入集群(设置共享 secret kerberos 身份验证)以及如何限制谁可以提交作业(在 yarn 下运行,然后使用 ranger 之类的东西来限制谁可以访问每个队列)。然而,我正在努力理解如何限制对 Spark 作业所需资源的访问。

如果我理解正确的话,工作节点上的所有 Spark 进程都将以 Spark 用户身份运行。据推测,spark 用户本身应该具有相当小的权限,但是问题就变成了如果你的 Spark 作业需要访问例如sql服务器。 The Spark security docs提及一个 key 存储。这是否意味着提交作业的用户可以使用 Spark-submit 传递主体和 key 表,该主体和 key 表可用于对外部资源进行身份验证,就像提交者发出请求一样。

后续问题是安全文档还提到临时文件(随机文件等)未加密。这是否意味着您必须假设 Spark 处理的任何数据可能会泄露给 Spark 集群的任何其他用户?如果是这样,是否可以使用他们建议的解决方法(对这些数据使用加密分区)来解决这个问题?我假设不是因为 Spark 用户本身必须有能力解密这些数据并且所有程序都以该用户身份运行....

最佳答案

I'm trying to work out how one might enforce security when running spark jobs on a shared cluster. I understand how one can ensure unauthorised nodes cannot join the cluster (setup shared secret kerberos auth) and how one can restrict who can submit jobs (run under yarn and then use something like ranger to restrict who can access each queue). I am however, struggling to understand how one might restrict access to resources needed by the spark job.

您可以使用 YARN 队列来执行此操作。每个队列可以具有最少量的可用资源。因此,您定义队列 ACL 以确保只有受信任的用户才会提交到队列,并定义该队列将拥有的最小资源量。

If I understand correctly all Spark processes on the worker nodes will run as the spark user.

你的理解不准确。启用 Kerberos 后(这是任何安全讨论的先决条件),Spark 作业将以启动它们的 Kerberos 用户身份执行。对于此事有一个重要的警告 - Kerberos 用户名必须与操作系统用户名匹配。

Presumably the spark user itself should have pretty minimal permissions, however the question then becomes what to do if your spark job needs to access e.g. sql server. The Spark security docs make mention of a key store. Does that mean that a user submitting a job can pass through a principal and keytab with spark-submit which can be used to authenticate with the external resource as if it were the submitter making the request.

此 key 存储用于不同且非常具体的目的 - 支持 HTTP 通信的 TLS 加密(例如 Spark UI)。因此,您不能将其用作访问第三方系统的 secret 存储。总体而言,在 Hadoop 基础设施中,无法与作业共享凭证。因此,每次都要重新发明机制。由于作业将代表启 Action 业的用户在操作系统级别执行,因此您可以依靠操作系统控制将凭据分发给第三方资源(例如文件系统权限)。

A follow up question is that the security docs also mention that temporary files (shuffle files etc) are not encrypted. Does that mean that you have to assume that any data processed by spark may be potentially leaked to any other user of your spark cluster? If so is it possible to use their proposed workaround (use an encrypted partition for this data) to solve this? I'm assuming not as the spark user itself must have the ability to decrypt this data and all programs are runining as this user....

有几件事需要注意。首先,正如已经提到的,Kerberized 集群上的 Spark 作业将以启动该作业的用户身份执行。作业生成的所有临时文件都将具有文件系统权限,仅向特定用户和 yarn 组(仅包括 yarn 用户)授予访问权限。其次,磁盘加密可以保护您的磁盘不被窃取,但永远无法保证操作系统级别的攻击的安全性。第三,从 Spark 2.1 开始,可以使用临时文件加密。

如果您有兴趣更深入地了解 Spark-on-YARN 安全模型,我建议您阅读 Apache Spark on YARN Security Model Analysis (免责声明我是作者)。

关于security - 保护 Apache Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39888943/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com