gpt4 book ai didi

hadoop - 在生产环境中以本地模式运行 Hadoop

转载 作者:可可西里 更新时间:2023-11-01 14:53:03 25 4
gpt4 key购买 nike

我已经在 Hadoop 上工作了一段时间,我们都知道我们使用本地模式来构建我们的脚本/作业并在本地测试它们。但是如果我们有一个场景,因为我们的一些客户有小数据集,一些客户有大数据集,我们不想写两份业务逻辑代码——一个用于本地运行模式,一个用于分布式模式运行,那么如何去解决它。

生产部署的一种方法是为数据集较小的客户提供 Hadoop 作业/Pig/MR 作业的本地模式运行,并为数据集较大的客户提供分布式设置模式。

我的问题是:在生产中提供本地模式 Hadoop 设置(因为数据量不是很大),这是个好主意吗?!

如果生产中的小数据集选择伪分布式模式,我需要考虑一下每种方法(本地模式和伪分布式模式)所面临的局限性,以及部署制作也一样。如果有人遇到此类设计挑战,请提供帮助。

请多多指教..

谢谢

最佳答案

我们以伪分布式模式甚至本地模式发布我们的一些产品版本,以防磁盘速度极慢和 CPU 资源不足。这些配置通常安装在虚拟机上,因此我们向客户推荐的是计划的 VM 备份。这在一定程度上可以恢复。

重要的是告知客户性能和可靠性的固有权衡,同时鼓励他们将当前配置视为 future 可扩展性的正确架构,如果他们对功能和整体结果感到满意规模较小。

我们有客户在伪分布式模式下运行,在 2 年期间发生了 1 次计划外停机事件 - 这是硬件级别的断电。由于非正常关机导致一些数据丢失,但范围有限。

我们为这些安装所做的一件事是安排 HBase 中的自动主要压缩,该压缩由 cron 每天在非高峰时段触发。

关于hadoop - 在生产环境中以本地模式运行 Hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31916725/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com