gpt4 book ai didi

apache-spark - 大数据集成测试最佳实践

转载 作者:行者123 更新时间:2023-12-04 02:29:21 24 4
gpt4 key购买 nike

关闭。这个问题是opinion-based .它目前不接受答案。












想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题.

3年前关闭。




Improve this question




我正在寻找一些关于使用 Kafka、storm、spark(流和批处理)的基于 AWS 的数据摄取管道的最佳实践的资源,这些管道使用各种微服务从 Hbase 读取和写入以公开数据层。对于我的本地 env,我正在考虑创建 docker 或 vagrant 图像,以允许我与 env 进行交互。我的问题变成了如何为更接近 prod 的功能性端到端环境提供一些东西,死机的方法是拥有一个始终在线的环境,但这会变得昂贵。就性能环境而言,似乎我可能不得不放弃并拥有可以“运行世界”的服务帐户,但其他帐户将通过计算资源受到限制,因此它们不会压倒集群.

我很好奇其他人是如何处理同样的问题的,以及我是否在向后考虑这个问题。

最佳答案

AWS 还通过 EC2 容器提供 Docker 服务。如果您使用 Docker 镜像的本地部署成功,您可以查看 AWS EC2 容器服务 (https://aws.amazon.com/ecs/)。

另外,请查看storm-docker ( https://github.com/wurstmeister/storm-docker ),它提供了易于使用的docker-files 来部署storm 集群。

关于apache-spark - 大数据集成测试最佳实践,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34532120/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com