gpt4 book ai didi

php - 如何识别网络爬虫?

转载 作者:IT王子 更新时间:2023-10-29 01:09:46 26 4
gpt4 key购买 nike

如何过滤来自网络抓取工具等的点击。不是人类的点击。

我使用maxmind.com从IP请求城市。.如果我必须支付所有点击数(包括网络抓取工具,机器人等)的话,这并不便宜。

最佳答案

有两种检测机器人的一般方法,我将它们称为“礼貌/被动”和“激进”。基本上,您必须使您的网站出现心理障碍。

有礼貌的

这些是礼貌地告诉抓取工具他们不应该抓取您的网站并限制抓取频率的方法。可以通过robots.txt文件确保礼貌,在该文件中,您可以指定应允许哪些漫游器(如果有的话)对您的网站进行爬网以及对网站进行爬网的频率。这假设您要处理的机器人礼貌。

挑衅的

使机器人远离您的站点的另一种方法是变得主动。

用户代理

一些攻击性行为包括(如其他用户所提到的)用户代理字符串的过滤。这可能是检测它是否是用户的最简单但也是最不可靠的方法。许多机器人倾向于欺骗用户代理,而某些机器人是出于正当理由(即,他们只想抓取移动内容),而其他机器人则根本不希望被识别为机器人。更糟糕的是,某些漫游器会欺骗合法/礼貌的漫游器代理,例如Google,Microsoft,Lycos和其他爬网程序的用户代理,这些代理通常被认为是礼貌的。依靠用户代理可能会有所帮助,但不能单靠本身。

有更积极的方式来处理欺骗用户代理并且不遵守您的robots.txt文件的机器人:

机器人陷阱

我喜欢将其视为“维纳斯飞行陷阱”,它基本上可以惩罚任何想和您玩花样的机器人。

漫游器陷阱可能是查找不遵循robots.txt文件的漫游器而又不损害网站可用性的最有效方法。创建漫游器陷阱可确保仅捕获漫游器,而不捕获真实用户。这样做的基本方法是在robots.txt文件中设置一个专门标记为禁止访问的目录,这样,任何礼貌的机械手都不会掉入陷阱。您要做的第二件事是从您的网站到bot陷阱目录放置一个“隐藏”链接(这可以确保真实用户永远不会进入那里,因为真实用户永远不会单击不可见链接)。最后,您禁止进入bot trap目录的任何IP地址。

以下是有关如何实现此目的的一些说明:
Create a bot trap(或者您的情况:PHP bot trap)。

注意:当然,某些漫游器足够聪明,可以读取robots.txt文件,查看已标记为“超出限制”的所有目录,并且仍会忽略您的礼貌设置(例如爬网率和允许的漫游器)。尽管这些机器人不礼貌,但它们可能不会落入您的机器人陷阱。

暴力

我认为这实际上对于一般观众(和一般用途)来说太激进了,因此,如果有18岁以下的 child ,请带他们到另一个房间!

您只需不指定robots.txt文件,即可使机器人陷阱“ violent ”。在这种情况下,爬网隐藏链接的任何BOT 都可能最终会出现在bot陷阱中,您可以在一段时间内禁止所有bot!

不建议这样做的原因是,您实际上可能希望某些机器人对您的网站进行爬网(例如Google,Microsoft或其他用于站点索引的机器人)。允许来自Google,Microsoft,Lycos等的漫游器礼貌地爬网您的网站,可以确保您的网站被编入索引,并且当人们在自己喜欢的搜索引擎上搜索该网站时,该网站就会显示出来。

自毁性

限制机器人可以在您的网站上进行爬网的另一种方法是服务验证码或机器人无法解决的其他挑战。这是以牺牲您的用户为代价的,并且我认为任何使您的网站无法使用的东西(例如CAPTCHA)都是“自毁性的”。当然,这实际上并不会阻止bot反复尝试爬网您的网站,只会使您的网站对他们非常无趣。有一些方法可以“绕过”验证码,但是它们很难实现,因此我不会对此进行过多研究。

结论

为了您的目的,应对机器人的最佳方法可能是采用上述策略的组合:

  • 筛选用户代理。
  • 设置机器人陷阱(暴力陷阱)。

  • 捕获进入暴力僵尸陷阱的所有僵尸,并仅将其IP列入黑名单(但不要阻止它们)。这样,您仍然可以获得被僵尸程序爬网的“好处”,但是由于进入了僵尸程序陷阱,您将不必付费检查列入黑名单的IP地址。

    关于php - 如何识别网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8404775/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com