gpt4 book ai didi

apache-spark - 在同一集群中同时进行 Spark 流和 Spark 批处理作业的最佳实践

转载 作者:行者123 更新时间:2023-12-04 04:50:01 26 4
gpt4 key购买 nike

关闭。这个问题是opinion-based .它目前不接受答案。












想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题.

6 个月前关闭。




Improve this question




我实际上正在部署 Spark/Kafka/Cassandra 应用程序,但我面临着不同解决方案的问题,所以我在这里听取您的建议。

  • 我有很长时间在 Spark 流中运行应用程序,其中包括处理 Kafka 中的 Avro 消息。根据消息的性质,我可以做一些不同的案例,最后在 Cassandra 中保存一条记录,所以只是这些技术的基本用例。
  • 我有第二份工作,其中包括 Spark 工作,它在 Cassandra 中获取一些数据,进行一些转换......我还没有定义工作的频率,但它会从每小时 1 次到每天 1 次, 所以通常是一个大批量的工作。

  • 所以我正在寻找执行批处理作业的最佳实践。由于 Spark 流作业在运行时会占用集群中的所有资源,因此我认为我有两种解决方案:
  • 例如,将 Spark 批处理包含在间隔为一小时的 Spark 流“微”批处理中
    Pro : 简单易做,优化资源配置
    缺点:不是很干净,微批处理间隔很大(在这种情况下 Spark 行为是什么?)
  • 为集群中的 Spark 作业保留一些资源
    亲:清洁
    缺点:资源分配未优化导致某些处理器暂时不会做任何事情

  • 所以我真的很想得到你的建议和你在类似案例中获得的一些经验。

    最佳答案

    您可以使用 dynamic allocation关于 yarn 和on Mesos , 以确保您的作业仅在需要时消耗资源。

    关于apache-spark - 在同一集群中同时进行 Spark 流和 Spark 批处理作业的最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31959042/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com