gpt4 book ai didi

php - Googlebot 无法解释的 32 字符十六进制附加字符串导致每天超过 20,000 个 404 错误

转载 作者:可可西里 更新时间:2023-11-01 13:32:10 24 4
gpt4 key购买 nike

我有一个非常有趣的问题,我无法解释。

每隔 2 到 6 秒,googlebot(我查过 googlebots IP,它是真实的东西 [使用主机 IP])正在请求我们网站上的一个页面(运行:php、apache、mongodb)不存在 (404s)。 没有其他机器人或人类曾经请求过这样的页面!只是谷歌机器人。

每个请求看起来像这样:

/2de4f853c2853807b2e72387aa8928a4

/ea5700c343d1a9798bc554af7c1a330e

/e5aafa102d54ba7517703336846cc019

我们的代码不使用任何 32 个字符的字符串,并且没有任何类似于我们网站内部或外部的链接。我们使用 codeigniter,所以一开始我以为它是默认的 session_id,我检查过,不是。

有没有人见过这样的事情?我们网站的某些页面使用了history.push,会不会是这个原因?只是一个想法。

示例请求的原始数据:

array (
'date' => '2012-12-01',
'time' => '10:01:33 PM',
'additional_data' =>
array (
'server_vars' =>
array (
'REDIRECT_STATUS' => '200',
'HTTP_HOST' => 'www.xxxxxxx.com',
'HTTP_ACCEPT' => '*/*',
'HTTP_ACCEPT_ENCODING' => 'gzip,deflate',
'HTTP_FROM' => 'googlebot(at)googlebot.com',
'HTTP_USER_AGENT' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
'HTTP_X_FORWARDED_FOR' => 'xxxxxxx',
'HTTP_X_FORWARDED_PORT' => '80',
'HTTP_X_FORWARDED_PROTO' => 'http',
'HTTP_CONNECTION' => 'keep-alive',
'PATH' => '/sbin:/usr/sbin:/bin:/usr/bin:/home/ec2-user/ec2/bin',
'SERVER_SIGNATURE' => '<address>Apache/2.2.22 (Amazon) Server at www.xxxxxxx.com Port 80</address>
',
'SERVER_SOFTWARE' => 'Apache/2.2.22 (Amazon)',
'SERVER_NAME' => 'www.xxxxxxx.com',
'SERVER_ADDR' => 'xxxxxxxxxx',
'SERVER_PORT' => '80',
'REMOTE_ADDR' => '10.171.147.114',
'REMOTE_PORT' => '40759',
'REDIRECT_URL' => '/e5aafa102d54ba7517703336846cc019',
'GATEWAY_INTERFACE' => 'CGI/1.1',
'SERVER_PROTOCOL' => 'HTTP/1.1',
'REQUEST_METHOD' => 'GET',
'QUERY_STRING' => '',
'REQUEST_URI' => '/e5aafa102d54ba7517703336846cc019',
'SCRIPT_NAME' => '/index.php',
'PATH_INFO' => '/e5aafa102d54ba7517703336846cc019',
'PATH_TRANSLATED' => 'redirect:/index.php/e5aafa102d54ba7517703336846cc019',
'PHP_SELF' => '/index.php/e5aafa102d54ba7517703336846cc019',
'REQUEST_TIME' => 1354428093,
),
'codeigiter_session' =>
array (
'session_id' => 'c795e40a279f58d9fbbf7f5501a26787',
'ip_address' => '10.171.147.114',
'user_agent' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
'last_activity' => 1354428093,
'user_data' => '',
),
),
)

我还能收集什么来解决这个问题。很奇怪。


更新:流量来自 2 个主要 IP 地址。 10.171.147.114 & 10.161.46.102

我查过这些,它们不是 GoogleBot。

我是从一个 IP 查找站点获得此信息的。

Remember that IP address ranges 10.0.0.0 – 10.255.255.255, 172.16.0.0 – 172.31.255.255, 192.168.0.0 – 192.168.255.255 and 224.0.0.0 - 239.255.255.255 are reserved IP Addresses for private internet use and IP lookup for these will not return any results.

对于这些请求,我应该/可以做什么?这些要求的意义何在?如果这是一种 DOS 攻击,他们在这方面做得非常糟糕。

最佳答案

要回答这个问题,问题是由 aws load blancer 的运行状况检查造成的。出于某种原因,aws 使用 googlebot user_agent 在我们的服务器上执行它们。

关于php - Googlebot 无法解释的 32 字符十六进制附加字符串导致每天超过 20,000 个 404 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13666930/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com