gpt4 book ai didi

web-crawler - 不抓取相同的内容两次

转载 作者:行者123 更新时间:2023-12-04 22:52:54 39 4
gpt4 key购买 nike

我正在构建一个小型应用程序,它将抓取内容不断增长的站点(如在 stackoverflow 上),不同之处在于一旦创建的内容很少被修改。

现在,在第一遍中,我抓取了站点中的所有页面。

但接下来,该站点的分页内容 - 我不想重新抓取所有内容,只想重新抓取最新添加的内容。

因此,如果该站点有 500 个页面,那么在第二次传递时,如果该站点有 501 个页面,那么我只会抓取第一页和第二页。这是处理这种情况的好方法吗?

最后,爬取的内容最终会出现在 lucene 中——创建自定义搜索引擎。

所以,我想避免多次抓取相同的内容。有什么更好的想法吗?

编辑:

假设该站点有一个页面:将像这样访问结果:

结果?page=1 , Results?page=2 ...等

我想跟踪上次爬网时有多少页面,只是爬网差异就足够了。 (也许使用页面上每个结果的哈希值 - 如果我开始遇到相同的哈希值 - 我应该停止)

最佳答案

如果每条内容都在一个唯一的位置,只需将这些位置(可能是 URL)输入一个哈希字段并在“抓取”内容之前检查它。无论如何,URL 应该是您在 Lucene 中存储的数据的一部分,因此在添加到索引之前通过搜索应该很容易完成。

关于web-crawler - 不抓取相同的内容两次,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1696182/

39 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com