gpt4 book ai didi

php - 如何获取域上的所有网页

转载 作者:行者123 更新时间:2023-12-02 17:46:33 24 4
gpt4 key购买 nike

我正在制作一个简单的网络蜘蛛,我想知道是否有一种方法可以在我的 PHP 代码中触发,以便我可以获取域中的所有网页...

例如,假设我想获取 Stackoverflow.com 上的所有网页。这意味着它会得到: https://stackoverflow.com/questions/ask pulling webpages from an adult site -- how to get past the site agreement? https://stackoverflow.com/questions/1234214/ Best Rails HTML Parser

以及所有链接。我怎样才能得到那个。或者是否有一个 APIDIRECTORY 可以让我获得它?

我还有办法获取所有子域吗?

顺便说一句,爬虫如何爬取没有 SiteMaps 的网站?或 Syndication feeds

干杯。

最佳答案

如果网站希望您能够执行此操作,他们可能会提供 Sitemap .结合使用站点地图和跟踪页面上的链接,您应该能够遍历站点上的所有页面 - 但这实际上取决于站点的所有者,以及他们如何使站点易于访问。

如果站点希望您这样做,您将无能为力。 HTTP 不提供任何列出目录内容的标准机制。

关于php - 如何获取域上的所有网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13922335/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com