gpt4 book ai didi

apache-spark - 如何使用多节点 Cassandra 集群设置 Spark?

转载 作者:行者123 更新时间:2023-12-04 04:50:01 26 4
gpt4 key购买 nike

首先,我是不是 使用 DSE Cassandra。我自己构建它并使用 Microsoft Azure 来托管服务器。

我有一个 2 节点的 Cassandra 集群,我设法在单个节点上设置了 Spark,但是我找不到任何关于在多节点集群上设置它的在线资源。

这不是 how to setup spark Cassandra multi node cluster? 的副本

为了在单个节点上进行设置,我遵循了本教程“Setup Spark with Cassandra Connector”。

最佳答案

您在这里有两个高级任务:

  • 设置 Spark(单节点或集群);
  • 设置 Cassandra(单节点或集群);

  • 这个任务是不同的并且不相关(如果我们不是在谈论数据局部性)。
    如何在集群中设置 Spark 你可以在这里找到 Architecture overview .
    通常有两种类型(独立的,您直接在主机上设置 Spark,或者使用任务调度程序(Yarn、Mesos)),您应该根据您的需求。
    由于您都是自己构建的,我想您会使用 Standalone installation .一个节点之间的区别是网络通信。默认情况下,Spark 在 localhost 上运行,更常见的是它使用 FQDNS 名称,因此您应该在/etc/hosts 和 hostname -f 中配置它或尝试使用 IP。
    看看 this page ,其中包含节点通信所需的所有端口。所有端口都应在节点之间打开并可用。
    请注意,默认情况下 Spark 使用 TorrentBroadcastFactory带有随机端口。

    对于 Cassandra,请参阅此文档: 1 , 2 , 教程 3 , 等等。
    您将需要 4可能。您也可以使用 docker containers 在 Mesos 中使用 Cassandra .

    附言如果数据局部性是你的情况,你应该想出一些你的东西,因为 Mesos 和 Yarn 都不处理运行更接近 Cassandra 分区的分区数据的 Spark 作业。

    关于apache-spark - 如何使用多节点 Cassandra 集群设置 Spark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45616765/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com