gpt4 book ai didi

java - 基于 Hadoop MapReduce 的 Web Java 爬虫

转载 作者:可可西里 更新时间:2023-11-01 16:38:00 26 4
gpt4 key购买 nike

我想使用 MapReduce Architecture 实现一个基于 Hadoop Framework 的 java 爬虫,并在 HBase 中插入内容。我尝试结合这两个教程:

Basic web crawler example

MapReduce tutorial

但是我无法理解这个概念。从页面中提取链接的逻辑放在哪里? Mapper 的输入数据类型是什么?提前致谢

最佳答案

只需使用 Apache Nutch - 它基于 Hadoop,拥有您需要的一切,甚至更多。

关于java - 基于 Hadoop MapReduce 的 Web Java 爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47888296/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com