gpt4 book ai didi

java - 更新 Nutch 以获取所获取的每个 URL 的父级

转载 作者:行者123 更新时间:2023-11-30 04:47:15 25 4
gpt4 key购买 nike

当我运行 Apache Nutch 1.4 爬网程序时,我想存储一些附加信息。我想存储每个 URL 的父级。

例如,我想抓取一个页面 a.html,它有 2 个指向 b.html 和 c.html 的 anchor 链接,所以当我抓取 a.html 时,我应该得到如下内容:-

a.html null
b.html a.html
c.html a.html

我想存储这样的东西。我已经阅读过 nutch 的工作原理,并且也在 eclipse 中运行过 nutch。我还阅读了 fetcher.java 并记录了它获取内容的位置。但我没有成功地知道 Nutch 从哪里获取给定页面的子 URL。我认为这一步发生在解析步骤之后。

最佳答案

我认为可以通过生成linkdb来获取信息。

链接数据库或 linkdb:它包含每个 URL 的已知链接列表,包括链接的源 URL 和 anchor 文本。它维护一个反向链接映射,列出每个 URL 的传入链接。

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

在解析阶段,nutch 从爬取的内容中生成外链,然后在更新阶段将新发现的 URL 存储到crawldb 中。新的 URL 将在下一个周期/一轮 Nutch 抓取中获取。

关于java - 更新 Nutch 以获取所获取的每个 URL 的父级,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10699639/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com