gpt4 book ai didi

scala - Databricks 中的高并发集群

转载 作者:行者123 更新时间:2023-12-04 11:56:53 25 4
gpt4 key购买 nike

这来自 Databricks 文档:

High Concurrency clusters

A High Concurrency cluster is a managedcloud resource. The key benefits of High Concurrency clusters are thatthey provide Apache Spark-native fine-grained sharing for maximumresource utilization and minimum query latencies.

High Concurrency clusters work only for SQL, Python, and R. Theperformance and security of High Concurrency clusters is provided byrunning user code in separate processes, which is not possible inScala.


  • 为什么这对 Scala 来说是不可能的?这个问题的主要方面。
  • Apache Spark 原生细粒度共享,可实现最大资源利用率和最小查询延迟。我很清楚 Spark 的工作原理,但如果有一些额外的考虑,这里可能会澄清一下。
  • 顺便说一句,大多数然后每个人都运行自己的标准集群或使用 SQL 等使用 HAC。我认为 HAC 将是要走的路 - 一般来说。
  • 最佳答案

    高并发集群旨在供多个用户使用,共享集群资源并隔离每个笔记本等。对于所有提到的语言,创建单独的进程并执行仅限于 Spark 向该语言公开的 API 的代码。但是 Scala 代码将在所有用户共享的 Spark JVM(每台机器)中执行,因此您可以访问 JVM 中的所有内容。
    通常,当使用高并发集群时,Table ACLs也启用(仅适用于 SQL 或 SQL+Python),因此您可以控制谁可以访问哪些数据,强制执行行/列级访问控制等。

    关于scala - Databricks 中的高并发集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65869399/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com