gpt4 book ai didi

apache-spark - 按列保护 Parquet 文件

转载 作者:行者123 更新时间:2023-12-04 04:00:36 24 4
gpt4 key购买 nike

我一直在寻找一种方法来保护 Parquet 文件,按列,用于 Spark 访问。理想情况下,这将以相同的方式工作 Apache Ranger适用于 Hive,即系统管理员为不同的组和列定义访问策略。

我一直在通过 Hortoworks HDP 尝试 Ranger,但是,Spark 和 Parquet 的插件似乎还没有。

我还能够使用 Apache Drill 设计解决方案和意见,但是,现在还不能接受,主要是因为社区对 Drill 的支持仍然很少。

有没有人面临同样的要求和/或有一些解决方案的方向?

最佳答案

经过大量研究,我得出结论,这是不可能的。

Ranger 与其他工具(HDFS、Hive、HBase 等)一起工作的方式是使用实现这些工具提供的 Hook 的插件。例如,要创建自定义插件来保护 Hive,需要通过 HiveAuthorizerFactory 创建 HiveAuthorizer。 .但是 Parquet 没有这样的钩子(Hook),因为它只不过是一种文件格式。

允许从 Ranger 在列级别保护 Parquet 文件的可能解决方案是为 Ranger 的 HDFS 插件创建扩展。此扩展将实现通过 Ranger 定义的 Parquet 文件的访问规则。这样,只要文件存储在 HDFS 中,我们就可以像对 Hive 或 HBase 一样无缝地保护 Parquet 文件。

关于apache-spark - 按列保护 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47169436/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com