gpt4 book ai didi

apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1

转载 作者:可可西里 更新时间:2023-11-01 14:34:09 27 4
gpt4 key购买 nike

我已引用本教程 ( http://wiki.apache.org/nutch/Nutch2Tutorial ) 来设置 Nutch 2.2.1.with Hbase。我已经完成了教程中给出的设置,但是没有明确提到如何爬取数据并将数据存储到Hbase表中。

你能给我推荐一些相关的链接/书籍吗?

最佳答案

对我最有帮助的是:

http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html

映射到 hbase 定义在这里 NUTCH_HOME/conf/gora-hbase-mapping.xml。因此,如果一切配置正确,抓取脚本应该为您存储它。

我有相同的配置,但在运行时遇到了很多问题,这里有一些提示:

技巧一:注意表名

我还配置了这些属性:

<property>
<name>storage.schema.webpage</name>
<value>webpage</value>
</property>

<property>
<name>storage.crawl.id</name>
<value>babu</value>
</property>

当您在脚本中提供参数 -crawlId 时,此配置会将数据抓取到 hbase 中的 babu_webpage 表中,编写简单的 'babu' -> $CRAWL_ID。

$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50

提示 2:如果您的表名错误,Nutch 仍然会在控制台成功写入。

技巧三:如何简单的查看hbase中是否有爬取的东西:

转到./bin/hbase shell

list
scan 'babu_webpage'

关于apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21135495/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com