gpt4 book ai didi

java - 我们如何使用Java搭建一个网站爬虫

转载 作者:行者123 更新时间:2023-11-29 06:17:23 24 4
gpt4 key购买 nike

再次发布这个问题。我已经开始使用爬虫,但我对索引部分感到困惑。我想要一种高效快速的方法来索引链接。目前我正在做的是将链接插入数据库,但是检查唯一链接是一项开销,所以任何人都可以建议我更好的方法来做到这一点。


您好,我正在尝试构建一个网站爬虫,它将爬取整个网站并获取其中的所有链接。与“XENU”非常相似。但我无法弄清楚如何去做。我脑子里有一个算法,但那会很慢,下面会提到。

  1. 获取主页的来源。
  2. 从 来源。
  3. 从 anchor 标签。
  4. 检查 url 属于同一站点或外部 网站。
  5. 获取 url 的来源 我们在上面的过程中发现和 将这些网址标记为已选中。
  6. 重复这个过程直到有 没有未标记的网址。

这是我的一些粗略想法。但是会很慢。那么任何人都可以建议我一些其他方法或改进这个算法。

问候,萨加尔。

最佳答案

您所描述的方法几乎是您唯一可以做的事情。使其更快的唯一方法是通过单独的线程并行处理多个 URL。这可以相对容易且大规模地完成:您只需要同步对 URLs-to-be-processed 池的访问并保存结果,因此让 1000 个线程并行执行它应该可以很好地工作。

关于java - 我们如何使用Java搭建一个网站爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4568523/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com