gpt4 book ai didi

url - 查找域及其子域中的所有网页

转载 作者:行者123 更新时间:2023-12-04 19:49:12 26 4
gpt4 key购买 nike

我正在寻找一种方法来查找域中的所有网页和子域。例如,在 uoregon.edu 域中,我想查找该域和所有子域(例如 cs.uoregon.edu)中的所有网页。

我一直在关注 nutch,我认为它可以胜任这项工作。但是,nutch 似乎下载了整个网页并将其编入索引以供以后搜索。但是,我想要一个只扫描网页以查找属于同一域的 URL 的爬虫。此外,nutch 似乎以序列化格式保存 linkdb。我怎样才能阅读它?我试过solr,它可以读取nutch收集的数据。但是,我认为我不需要 solr,因为我没有执行任何搜索。我只需要属于给定域的 URL。

谢谢

最佳答案

如果您熟悉 ruby​​,请考虑使用 anemone。精彩的爬虫框架。这是开箱即用的示例代码。

require 'anemone'

urls = []

Anemone.crawl(site_url)
anemone.on_every_page do |page|
urls << page.url
end
end

https://github.com/chriskite/anemone

免责声明:您需要使用问题中的补丁来抓取子域,并且您可能需要考虑添加最大页数。

关于url - 查找域及其子域中的所有网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10272920/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com