gpt4 book ai didi

azure - 在处理数据时如何在 Azure HDInsight 中实现数据分布

转载 作者:行者123 更新时间:2023-12-02 21:14:21 24 4
gpt4 key购买 nike

Hadoop 的卖点之一是数据与计算一起存在?这如何与 WASB 一起工作?
在处理 MapReduce 作业时,map 和 reduce 任务在数据 block 所在的位置执行。这样就实现了数据局部性。
但在 HDInsight 的情况下,数据存储在 wasb 中。那么当 MapReduce 执行时,数据是否从 wasb 复制到每个计算节点,然后继续处理?如果是这样,那么将数据复制到计算节点的单一 channel 将成为瓶颈。

谁能向我解释数据是如何存储在 wasb 上的,以及在处理过程中如何处理数据?

最佳答案

就像任何 Hadoop 系统一样,数据在计算时(作业运行时)加载到各个节点的内存中。与 WASB 的不同之处在于数据是从 Azure 存储帐户加载的,而不是从本地磁盘加载的。鉴于 Azure 数据中心主干的构建方式,性能通常与本地连接到 VM 的磁盘相同。

关于azure - 在处理数据时如何在 Azure HDInsight 中实现数据分布,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39264204/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com