gpt4 book ai didi

hadoop - 使用 mapreduce 进行异常检测

转载 作者:可可西里 更新时间:2023-11-01 14:35:54 26 4
gpt4 key购买 nike

我是 Apache Hadoop 的新手,我真的很期待探索它的更多功能。在基本的 wordcount 示例之后,我想稍微提高一点。所以我通过阅读 Hadoop In Action 书得到了这个问题陈述。“拿一个网络服务器日志文件。写一个 MapReduce 程序来汇总每个 IP 地址的访问次数。再写一个 MapReduce程序来查找访问量最高的 K 个 IP 地址。这些经常访问者可能是合法的 ISP 代理(在许多用户之间共享)或者他们可能是抓取者和欺诈者(如果服务器日志来自广告网络)。”任何人都可以帮我解决我应该如何开始吗?实际编写我们自己的代码有点困难,因为 hadoop 只提供 wordcount 作为启动的基本示例。非常感谢任何帮助。谢谢。

最佳答案

Write a MapReduce program to aggregate the number of visits for each IP address.

wordcount 示例与这个示例没有太大区别。在 wordcount 示例中, map 在从输入中提取“单词”后发出 (“word”,1),在 IP 地址情况下, map 在提取“”192.168.0.1”后发出 (“192.168.0.1”,1)来自日志文件的 IP 地址。

Write another MapReduce program to find the top K IP addresses in terms of visits.

第一个MapReduce作业完成后,会根据reducers的#of输出很多这样的内容

<visits> <ip address>

所有这些文件都必须使用 getmerge 合并选项。 getmerge 选项将合并文件并在本地获取文件。

然后必须使用基于第一列的排序命令对本地文件进行排序,即访问次数。

然后使用head命令可以得到前n行得到访问次数前n的IP地址。

第二个 MR 作业可能有更好的方法。

关于hadoop - 使用 mapreduce 进行异常检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7529047/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com