gpt4 book ai didi

asp.net - 如何防止未经授权的蜘蛛抓取

转载 作者:行者123 更新时间:2023-12-02 08:39:37 25 4
gpt4 key购买 nike

我想防止从我们的网站之一自动抓取 html,同时不影响合法的蜘蛛抓取(googlebot 等)。是否已经存在可以实现此目的的东西?我使用的术语是否正确?

编辑:我主要是为了防止有人恶意这样做。 IE。他们不会遵守 robots.txt

EDIT2:如何通过“使用率”阻止使用……即,如果检测到自动化并且流量不是来自合法(google、yahoo、msn 等)IP,则使用验证码继续浏览。

最佳答案

这即使不是不可能实现,也是很困难的。许多“流氓”蜘蛛/爬行程序不通过用户代理字符串来识别自己,因此很难识别它们。您可以尝试通过 IP 地址阻止他们,但很难跟上将新 IP 地址添加到阻止列表的步伐。如果使用 IP 地址,也有可能阻止合法用户,因为代理使许多不同的客户端显示为单个 IP 地址。

在这种情况下使用 robots.txt 的问题是蜘蛛可以选择忽略它。

编辑: 速率限制是一种可能性,但它也遇到了识别(并跟踪)“好”和“坏”用户代理/IP 的一些相同问题。在我们编写的进行一些内部页面浏览/ session 计数的系统中,我们根据页面浏览率消除 session ,但我们也不担心消除“好”蜘蛛,因为我们也不希望将它们计入数据中。我们不会采取任何措施阻止任何客户实际查看页面。

关于asp.net - 如何防止未经授权的蜘蛛抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/449376/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com