gpt4 book ai didi

html - 使用身份验证所需的查询创建 XML 站点地图

转载 作者:行者123 更新时间:2023-12-03 16:18:38 26 4
gpt4 key购买 nike

我的任务是为网络爬虫创建一个 xml 站点地图。问题是,除非您同意这些条款,否则唯一可以查看的页面是主页启动页面。现在已经有谷歌分析从这些页面发送数据,所以谷歌知道它们。我可以通过简单地将 tos=true 添加到查询字符串来绕过需要同意条款的用户。

我的问题是,我是否应该使用查询字符串将所有页面添加到站点地图中,以便机器人可以访问它们?还是应该将这些页面添加到站点地图中,即使机器人无法找到这些页面?

我有谷歌,但还没有真正找到包含或排除爬虫机器人无法立即访问的页面的最佳做法。

起初感觉我们不需要站点地图,但我们肯定想要并且已经对需要 auth 的页面进行了一些分析,所以我对这种情况下的最佳实践有点不知所措。

最佳答案

您应该将其添加到查询中,以便爬虫可以找到它们,如果您不这样做,那么它们将无法访问您的 XML 文件,我猜您想要完成的是让爬虫访问 XML 文件。

在我看来,您应该添加查询,否则如果爬虫无法访问 XML 文件,我认为您根本就没有必要拥有这些文件。

在这个 link他们正在从站点地图自己的网站进行查询,并且此链接在使用站点地图时还显示了另一件重要的事情,那就是实体转义。如果链接格式正确,爬虫只能理解链接。

http://www.sitemaps.org/protocol.html#submit_robots

关于html - 使用身份验证所需的查询创建 XML 站点地图,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31954484/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com