gpt4 book ai didi

web-crawler - 如何使用 robots.txt 中的站点地图创建 URL 白名单?

转载 作者:行者123 更新时间:2023-12-05 08:09:48 24 4
gpt4 key购买 nike

我正在尝试创建一个供爬虫访问的 URL 白名单(换句话说,我想要一个爬虫访问的 URL 列表,并且我希望爬虫只访问这些文件)。

我有一个站点地图,其中包含白名单中的所有 URL。

我应该如何格式化 robots.txt?

这个有用吗?

User-agent: *
Disallow: /
Sitemap: sitemap.txt

还是我必须这样做?

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: sitemap.txt

最佳答案

Sitemap 和 robots.txt 没有直接关联。它们是不同的技术。 robots.txt 文件只是用来指向站点地图文件。就这些。

所以第一个例子不会给你想要的结果,因为抓取每个页面都设置为禁止。第二个示例是正确的,您必须将域添加到站点地图 url

User-agent: *
Disallow: /
Allow: whitelist/*
Sitemap: http://www.example.com/sitemap.txt

关于web-crawler - 如何使用 robots.txt 中的站点地图创建 URL 白名单?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32959005/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com