gpt4 book ai didi

azure - 用于存储和Hadoop群集处理的Azure配置

转载 作者:行者123 更新时间:2023-12-02 20:46:27 25 4
gpt4 key购买 nike

希望有人可以提供任何建议。目前,我被要求为新的Azure平台确定可能的基础结构。我们还将将HDFS / Hadoop用于我们的ETL和存储。

任何人都可以在以下方面提供任何建议:

设置存储优化服务器(例如,L4、4核,32gb Ram,678 GB存储),以在HDFS中保存我们的原始数据,引用表和最终清除的数据。该服务器可以24/7全天候运行,以提供给我们的分析平台。

然后,为了利用Hadoop的功能,我们是否可以启动一组处理服务器(例如,每周一次)以从存储服务器读取,处​​理并写回存储服务器,然后关闭直到下一个加载与处理任务。

真的会感谢任何人对此构想或我们可能想到的任何配置的想法建议吗?

非常感谢

菲奥拉诺

最佳答案

无论您的Hadoop集群是本地还是云环境,它都包含两个主要资源:用于处理作业的计算资源和用于保存数据的存储资源。在本地群集中,存储和计算资源被组合到同一硬件中,从而将它们 bundle 在一起。使用HDInsight,存储与计算资源完全分离。这是HDInsight的一个非常重要的区别。这意味着我可以完全关闭群集的计算部分,并且数据将仍然可访问。

注意:要分析HDInsight群集中的数据,您可以将数据存储在Azure StorageAzure Data Lake Store或两者中。

有关更多详细信息,请参见“Azure HDInsight Documentation”。

关于azure - 用于存储和Hadoop群集处理的Azure配置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47817257/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com