gpt4 book ai didi

php - 未设置 HTTP_USER_AGENT - 这正常吗?或者可能是一个机器人?

转载 作者:搜寻专家 更新时间:2023-10-31 21:13:05 27 4
gpt4 key购买 nike

征求您对此的意见/经验

我们的 CMS 正在从 HTTP_USER_AGENT 字符串中获取信息。最近我们在代码中发现了一个错误——忘记检查 HTTP_USER_AGENT 是否存在(这是可能的,但老实说:我们只是跳过了它,没想到会发生这种情况)——这些情况导致了错误。所以我们已经纠正了它,并在那里安装了一个跟踪:如果未设置 HTTP_USER_AGENT,则会向我们的跟踪系统发送警报。

现在我们有过去几个月来自许多网站的数据/统计数据。现在我们的统计数据显示这非常罕见。 ~ 0.05-0.1%

另一个有趣的观察:这些请求是单一的。没有发现这个“用户”在同一 session 中有多个页面浏览的情况...

这迫使我们思考......我们是否应该将这些请求视为机器人?并简单地阻止他们...否则将是一个严重的错误?
Googlebot 和其他“好机器人”总是发送 HTTP_USER_AGENT 信息。

我知道防火墙或代理服务器可能会更改(或删除)此用户代理信息。但根据我们的统计数据,我无法澄清这一点...

你有什么经验?还有其他人对这个主题做过研究吗?

我在 stackoverflow 上找到的其他帖子只是简单地接受了“此信息可能未发送”这一事实。但我们为什么不质疑一下呢?这真的很正常吗??

最佳答案

对于真正的用户,我认为缺少 user-agent 是不正常的,但它仍然是一种[罕见]的可能性,可能是由防火墙、代理或隐私软件剥离 user-agent 引起的。

缺少用户代理的请求很可能是机器人或脚本(不一定是搜索引擎爬虫)。虽然你当然不能肯定地说。

可能表示机器人/脚本的其他因素:

  • 只请求页面本身,不请求页面上的图片、CSS、Javascript等资源
  • 页面请求之间的时间间隔非常短(例如在同一秒内)。
  • 未能在本应设置 cookie 的后续请求中发送 cookie 或 session ID,但请记住,真正的用户可能已禁用 cookie。

关于php - 未设置 HTTP_USER_AGENT - 这正常吗?或者可能是一个机器人?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14893437/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com