gpt4 book ai didi

hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群

转载 作者:可可西里 更新时间:2023-11-01 16:28:56 25 4
gpt4 key购买 nike

我计划旋转我的开发集群来为基础设施监控应用程序进行趋势分析,我计划使用 Spark 来分析故障趋势,并使用 Cassandra 来存储传入数据和分析数据。考虑从大约 25000 台机器/服务器(可能是不同服务器上的一组相同应用程序)收集性能矩阵。我期望每台机器的性能矩阵大小为 2MB/秒,我计划将其插入具有时间戳、服务器作为主键和应用程序以及一些重要矩阵作为集群键的 Cassandra 表中。我将在此存储的信息之上运行 Spark 作业,以进行性能矩阵故障趋势分析。

关于这个问题,考虑到上述情况,我需要多少个节点(机器)以及 CPU 和内存方面的什么配置来启动我的集群。

最佳答案

Cassandra 需要一个精心规划的数据模型才能正常运行。在您拥有大型数据集并发现您可能会更好地重新安排数据模型之前,在此阶段花时间计划事情是非常值得的!

“一般”经验法则是根据查询调整模型,同时注意避免诸如非常大的行、大量删除、批处理等可能会严重影响性能的事情。

文档为 planning 提供了良好的开端和 testing你可能会发现有用。我还建议使用 Cassandra stress工具。您可以使用它将性能测试推送到您的 Cassandra 集群中,以检查延迟和任何性能问题。您也可以使用自己的架构,我个人认为这非常有用!

如果您使用的是基于云的硬件(例如 AWS),那么向上/向下扩展并查看最适合您的方式相对容易。您不需要在 Cassandra 上投入大型硬件,它水平扩展比垂直扩展更容易。

我假设您也将数据拉回到分析端的单独 spark 集群中,这样这些节点将运行纯 Cassandra(较少的硬件规范)。但是,如果您使用的是 Datastax Enterprise 版本(您可以在其中以 spark“模式”运行节点),那么您将需要更强大的硬件以及 spark 驱动程序、执行程序等所需的额外负载。另一个好的文档链接是 DSE hardware recommendations

关于hadoop - 具有 6 到 7 个节点硬件配置的分布式 Spark 和 HDFS 集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45189822/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com