gpt4 book ai didi

hadoop - 加载大型数据集的有效方法

转载 作者:行者123 更新时间:2023-12-02 21:52:47 25 4
gpt4 key购买 nike

我正在阅读Google关于MapReduce的白皮书。而且我想知道如何将GB的数据有效地传递给MapReduce算法。该文件显示了以秒为单位处理TB数据的统计信息。本文说,要使其高效运行,它们会减少网络调用,并尝试在本地磁盘上进行本地写入。仅reducer函数执行远程调用并写入olocal输出文件。现在,当我们将GB的数据加载到内存中并将其传递给Map函数时,数据加载器应用程序肯定会内存不足。

所以我的问题是应该使用什么技术来有效地加载数据并传递给M和R调度程序的调度程序应用程序,并计算M件和R件的数量。

我很可能会从Oracle数据库中读取一些数据,并在其他一些表中将其更新。

白皮书的网址
http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en//archive/mapreduce-osdi04.pdf

最佳答案

在Google的情况下,数据可能存储在GFS(分布式文件系统)中,并且映射阶段在两倍于GFS存储节点的节点上运行。这样,系统通常使用本地磁盘上已经存在的数据,因此不必通过网络移动大量数据。

还有关于GFS的论文:http://research.google.com/archive/gfs.html

关于hadoop - 加载大型数据集的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18693259/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com