- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个非常有趣的问题,我无法解释。
每隔 2 到 6 秒,googlebot(我查过 googlebots IP,它是真实的东西 [使用主机 IP])正在请求我们网站上的一个页面(运行:php、apache、mongodb)不存在 (404s)。 没有其他机器人或人类曾经请求过这样的页面!只是谷歌机器人。
每个请求看起来像这样:
/2de4f853c2853807b2e72387aa8928a4
/ea5700c343d1a9798bc554af7c1a330e
/e5aafa102d54ba7517703336846cc019
我们的代码不使用任何 32 个字符的字符串,并且没有任何类似于我们网站内部或外部的链接。我们使用 codeigniter,所以一开始我以为它是默认的 session_id,我检查过,不是。
有没有人见过这样的事情?我们网站的某些页面使用了history.push,会不会是这个原因?只是一个想法。
示例请求的原始数据:
array (
'date' => '2012-12-01',
'time' => '10:01:33 PM',
'additional_data' =>
array (
'server_vars' =>
array (
'REDIRECT_STATUS' => '200',
'HTTP_HOST' => 'www.xxxxxxx.com',
'HTTP_ACCEPT' => '*/*',
'HTTP_ACCEPT_ENCODING' => 'gzip,deflate',
'HTTP_FROM' => 'googlebot(at)googlebot.com',
'HTTP_USER_AGENT' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
'HTTP_X_FORWARDED_FOR' => 'xxxxxxx',
'HTTP_X_FORWARDED_PORT' => '80',
'HTTP_X_FORWARDED_PROTO' => 'http',
'HTTP_CONNECTION' => 'keep-alive',
'PATH' => '/sbin:/usr/sbin:/bin:/usr/bin:/home/ec2-user/ec2/bin',
'SERVER_SIGNATURE' => '<address>Apache/2.2.22 (Amazon) Server at www.xxxxxxx.com Port 80</address>
',
'SERVER_SOFTWARE' => 'Apache/2.2.22 (Amazon)',
'SERVER_NAME' => 'www.xxxxxxx.com',
'SERVER_ADDR' => 'xxxxxxxxxx',
'SERVER_PORT' => '80',
'REMOTE_ADDR' => '10.171.147.114',
'REMOTE_PORT' => '40759',
'REDIRECT_URL' => '/e5aafa102d54ba7517703336846cc019',
'GATEWAY_INTERFACE' => 'CGI/1.1',
'SERVER_PROTOCOL' => 'HTTP/1.1',
'REQUEST_METHOD' => 'GET',
'QUERY_STRING' => '',
'REQUEST_URI' => '/e5aafa102d54ba7517703336846cc019',
'SCRIPT_NAME' => '/index.php',
'PATH_INFO' => '/e5aafa102d54ba7517703336846cc019',
'PATH_TRANSLATED' => 'redirect:/index.php/e5aafa102d54ba7517703336846cc019',
'PHP_SELF' => '/index.php/e5aafa102d54ba7517703336846cc019',
'REQUEST_TIME' => 1354428093,
),
'codeigiter_session' =>
array (
'session_id' => 'c795e40a279f58d9fbbf7f5501a26787',
'ip_address' => '10.171.147.114',
'user_agent' => 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
'last_activity' => 1354428093,
'user_data' => '',
),
),
)
我还能收集什么来解决这个问题。很奇怪。
更新:流量来自 2 个主要 IP 地址。 10.171.147.114 & 10.161.46.102
我查过这些,它们不是 GoogleBot。
我是从一个 IP 查找站点获得此信息的。
Remember that IP address ranges 10.0.0.0 – 10.255.255.255, 172.16.0.0 – 172.31.255.255, 192.168.0.0 – 192.168.255.255 and 224.0.0.0 - 239.255.255.255 are reserved IP Addresses for private internet use and IP lookup for these will not return any results.
对于这些请求,我应该/可以做什么?这些要求的意义何在?如果这是一种 DOS 攻击,他们在这方面做得非常糟糕。
最佳答案
要回答这个问题,问题是由 aws load blancer 的运行状况检查造成的。出于某种原因,aws 使用 googlebot user_agent 在我们的服务器上执行它们。
关于php - Googlebot 无法解释的 32 字符十六进制附加字符串导致每天超过 20,000 个 404 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13666930/
我一直在上下寻找 Googlebot 及其 sibling 从“CA”以外的位置抓取的位置,但没有找到特定于抓取的位置。我找到了 2008 年的数据中心 map (http://bit.ly/mONh
我正在迁移桌面网站以通过一组单独的 URL 支持移动设备。在网站的根目录,我使用媒体查询来检测用户是移动设备还是桌面设备,然后重定向到适当的区域。 出于某种原因,桌面版 Googlebot(使用 Go
关闭。这个问题需要更多focused .它目前不接受答案。 想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post . 去年关闭。 Improve this questio
当我在 Google URL 检查工具上检查我的网站 URL 时,它显示无法加载页面资源,即图像、样式表和脚本文件。但是,我的网站在实时服务器上运行良好,而 Googlebot 智能手机无法正确呈现该
网站是完全动态的。 元标签、opengraph 标签和内容是在网页上动态创建的。 我可能做错了什么。请指导我获得 GOOGLE ADSENSE 计划的批准。 为此,Google Adsense 给出了
已关闭。这个问题是 off-topic 。目前不接受答案。 想要改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 已关闭13 年前。 Improve th
我将阻止除大型搜索引擎之外的所有机器人。我的阻止方法之一是检查“语言”:接受语言:如果没有接受语言,机器人的 IP 地址将被阻止到 2037 年。Googlebot 没有接受语言,我想用 DNS 验证
我的网站有大约 500.000 页。我制作了 sitemap.xml 并在其中列出了所有页面(我知道每个文件限制 50.000 个链接,所以我有 10 个站点地图)。无论如何,我在 webmaster
背景 我目前正在使用 Google 的#! 方法通过代理和 PhantomJS 的组合为一个动态网站设置 SEO 索引。我们的 Web 应用程序不仅托管我们自己的应用程序,还托管由第三方提供的任意数量
我有一个网站,该网站取决于用户从其他网络成员接收消息的位置。因此,通过工作流,用户需要将地址键入文本字段,并通过 ajax 回调返回答案。所有通过 POST 发送到服务器的请求。我的问题是如何让它对
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题吗? Update the question所以它是on-topic用于堆栈溢出。 关闭 11 年前。 Improve thi
不时查看我的搜索日志,我注意到到目前为止我的搜索引擎的最大用户是 google-bot。是什么赋予了?它是否正在寻找可能无法通过导航直接访问的内容?如果是这样,它如何知道要查找哪些单词和短语(它们非常
由于我的服务器上有很多攻击尝试,我需要使用 fail2ban,我还有必须激活/创建的过滤器来阻止攻击尝试。 但现在我很确定某些 google ip 最终进入了我的 fail2ban jail ....
我想禁止所有机器人抓取网站并将其编入索引。除了 Googlebot。我想允许谷歌索引索引 (/) URL,但没有别的。最好在 robots.txt 中。 您对如何实现这一目标有任何想法吗?谢谢! 最佳
在我的 robots.txt 文件中,我有以下行 用户代理:Googlebot-Mobile不允许:/ 用户代理:GoogleBot不允许:/ 站点地图:http://mydomain.com/sit
我们使用 NextJS 开发了一个网站 SSR。在不同的桌面和移动浏览器中一切正常,但是当我尝试使用 Google Search Console 的“获取和渲染”功能以 google 的方式查看我的网
在过去的几天里,当 google bot 尝试访问我们的主页(欢迎/索引)时,我们开始收到缺少模板的错误。我已经盯着这个看了几个小时,知道我只是错过了一些简单的东西。 A ActionView::Mi
我的问题是googlebot是否可以跟踪通过javascript onchange函数重定向的页面: 示例: page1 page2 document.getElem
我有一个启用了表单例份验证的 ASP.Net 3.5 网站。是否可以让 Googlebot 抓取我的网站而不提示输入用户名/密码? 最佳答案 Google 声称不会索引页面并将其显示给不可用的用户,因
如果我想在 Mozilla Firefox 上隐藏一些内容,我使用这个代码: Hide only in Mozilla 我的问题是,如何向 Googlebot 隐藏一些内容? 最佳答案 您可以基于
我是一名优秀的程序员,十分优秀!