gpt4 book ai didi

hadoop - 使用 Hadoop 在内存 DataGrid 中横向扩展软件

转载 作者:可可西里 更新时间:2023-11-01 14:35:04 26 4
gpt4 key购买 nike

我一直在阅读一些关于使用 hadoop 进行实时处理的资料,然后偶然发现了这个 http://www.scaleoutsoftware.com/hserver/

根据文档所说,他们似乎使用 hadoop 工作节点/从属节点实现了内存数据网格。我在这里有几个问题

  1. 根据我的理解,如果我有一个 100 GB 的数据,我至少需要 100GB 的 ram 在我的集群上的所有节点上仅用于数据 + 用于任务跟踪器的额外 ram,数据节点守护进程 + 额外的 ram对于将在所有这些节点上运行的 hServer 服务。我的理解正确吗?

  2. 该软件声称他们可以通过改善 hadoop 中的延迟问题来进行实时数据处理。是因为,它允许我们将数据写入内存网格而不是 HDFS 吗?

我是大数据技术的新手。如果有些问题很幼稚,我们深表歉意。

最佳答案

[全面披露:我在创建 ScaleOut hServer 的公司 ScaleOut Software 工作。]

  1. 内存中数据网格为每个对象创建一个副本,以确保在发生故障时的高可用性。所需的内存总量是用于存储对象的内存加上用于存储对象副本的内存。在您的示例中,您将需要 200 GB 的总内存:100 GB 用于对象,100 GB 用于副本。例如,在四服务器集群中,每台服务器需要 50 GB 的内存可用于 ScaleOut hServer 服务。

  2. 在当前版本中,ScaleOut hServer 通过加速数据访问迈出了实现实时分析的第一步。它以两种方式执行此操作,这些方式使用不同的输入/输出格式实现。第一种操作模式使用网格作为 HDFS 的缓存,第二种使用网格作为数据集的主存储,为快速变化的、基于内存的数据提供支持。 使用内存中的数据网格访问数据,通过消除磁盘 I/O 和最小化网络开销来减少延迟。此外,缓存 HDFS 数据通过存储记录读取器生成的键和值来提供额外的性能提升网格中原始 HDFS 文件的数量。

关于hadoop - 使用 Hadoop 在内存 DataGrid 中横向扩展软件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17567339/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com