gpt4 book ai didi

asp.net - 允许搜索机器人在没有 session ID 的情况下抓取您的网站

转载 作者:行者123 更新时间:2023-12-04 12:25:38 24 4
gpt4 key购买 nike

谷歌 Webmaster guidelines状态

Allow search bots to crawl your sites without session IDs or arguments that track their path through the site. These techniques are useful for tracking individual user behavior, but the access pattern of bots is entirely different. Using these techniques may result in incomplete indexing of your site, as bots may not be able to eliminate URLs that look different but actually point to the same page.



我的 ASP.NET 1.1 站点使用自定义身份验证/授权并且非常依赖 session guid(类似于 this approach)。我担心允许非 session 跟踪流量会破坏我现有的代码或引入安全漏洞。

允许非 session 跟踪机器人抓取正常 session 跟踪的站点有哪些最佳实践?除了检查用户代理之外,还有什么方法可以检测搜索机器人(我不希望人们将自己伪装成 googlebot 来绕过我的 session 跟踪)?

最佳答案

检测机器人的正确方法是通过主机条目 ( Dns.GetHostEntry )。一些蹩脚的机器人要求您通过 IP 地址进行跟踪,但流行的机器人通常不需要。 Googlebot 请求来自 *.googlebot.com。获得主机条目后,您应该检查IPHostEntry.AddressList确保它包含原始IP地址。

验证机器人时甚至不要查看用户代理。

另见 http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html

关于asp.net - 允许搜索机器人在没有 session ID 的情况下抓取您的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2203413/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com