gpt4 book ai didi

Hadoop MapReduce 思维

转载 作者:可可西里 更新时间:2023-11-01 14:50:39 27 4
gpt4 key购买 nike

我是 hadoop mapreduce 框架领域的新手。自己看了很多教程,了解了框架。我已经在伪分布式模式下成功配置了一个 hadoop 设置。我有两个特定任务需要在 Hadoop MapReduce 中完成。

我有许多具有以下格式的数据文件。

交换消息的数量;用户1;用户2;时间戳;

例如:5;约翰·多伊;约翰·史密斯; 1900 年 1 月 1 日;

我想完成的是

  1. 对用户名进行数据屏蔽(例如在用户名之上构建 SHA256,以便它们是匿名的。)

  2. 汇总给定时间段(比如 1 周)内交换的消息数

现在让我们来回答我的问题:据我目前的了解,hadoop mapreduce框架就是为了完成第二个任务。我可以映射键值(交换消息的两个用户名,消息数量)并减少它以获得给定时间段(比如 1 周)内的消息总数。但是第一个任务呢?当我进行数据屏蔽时,没有减少操作,这个任务不是针对 hadoop mapreduce 的吗?我想并行执行,但真的想不到应用 hadoop mapreduce 来完成第一个任务。我需要处理的数据文件数量非常大,这让我想到了无论如何使用hadoop mapreduce。

感谢您的评论!

P.S.:这个问题可以概括为“hadoop MapReduce 最适合哪种类型的任务?”

最佳答案

第一个任务非常适合 map 作业。MapReduce 通常适用于排序、映射(对数据应用一些奇特的函数)和归约数据。

所以你的问题很适合 MR。

如果您需要任务之间的强大通信或迭代繁重的任务(如图形算法),则 MapReduce 不适合。对于最适合的 BSP,您可以在 Hama 或 Giraph 之间进行选择,而 Giraph 主要提供图形处理,而 Hama 是纯 BSP 框架,它也有一个图形处理模块。

关于Hadoop MapReduce 思维,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10846592/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com