gpt4 book ai didi

php - 谷歌代理是假爬虫?例如 : google-proxy-66-249-81-131. google.com

转载 作者:可可西里 更新时间:2023-11-01 13:19:37 31 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

8 年前关闭。




Improve this question




* 编辑:
此问题的解决方案在此问题下方,因为无法发布答案。人们决定结束这个问题。*

最近我发现谷歌代理的一些变体访问了我的网站。我怀疑这些是合法的谷歌爬虫,因为这些爬虫并不总是在代理后面(就像主机名描述的那样)并且将自己标识为浏览器。主机名的格式与 google bot 类似/类似,但添加了字符串“代理”。

我的 PHP 阻止类阻止了这些爬虫,但是阻止这些爬虫正确吗?它们是什么,这些是来自谷歌还是假的?

这里有一些关于这些爬虫之一的信息:

BlockedIp Notifier Report - IP:66.249.81.131:: has been blocked

Ticket ID : {EVNT_136877_2013040520130402_33147_10348}
Event type : Access blocked
Event date : 04/05/2013 - 19:17:47 (server date-time)
Event counter : First occurring
Processed url : http://streambutler.net/
From url : http://www.google.com/search
Domain : streambutler.net
Domain IP : 95.170.70.213
Visitor IP : 66.249.81.131
Proxy IP : 66.249.81.131

Critical : Yes
Action required : No


Additional information
Problem : Bad Proxy - via 66.249.81.131
Hostname : google-proxy-66-249-81-131.google.com
Block : Yes
Refferer : http://www.google.com/search
AgentString : Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.4 (KHTML, like G...
Browser : Chrome 22.0.1229
Platform : Linux
Robot : No
Mobile : No
Tablet : No
Console : No
Crawler : No
Agent_type : browser
Agent_name : chrome
Agent_version : 22.0.1229
Os_type : linux
Os_name : linux
Agent_languagetag : en
Status : ok
Request : 66.249.81.131
Languagecode : us
Country : United States
Region : California
City : Mountain View
Zipcode : 94043
Latitude : 37.406
Longitude : -122.079
Timezone : -07:00

Available from : \'http
Areacode : 0
Dmacode : 0
Continentcode : na
Currencycode : USD
Currencysymbol : $
Currencysymbol_utf8 : $
Currencyconverter : 1
Extended : 1
Organization : NULL

发现其他变体
  • google-proxy-66-249-81-131.google.com(将自己标识为 Firefox
    6.0 ???)
  • google-proxy-66-249-81-148.google.com(尝试访问 javascript 文件)
  • google-proxy-66-249-81-131.google.com
  • google-proxy-66-249-81-111.google.com(尝试访问 javascript
    文件)
  • google-proxy-66-249-81-164.google.com

  • 编辑:
    下一个是一个奇怪的,Windows 7 上的 Firefox 6.0 和与上面示例相同的 IP 但不是下一个日志中的代理?如果是移动代理,这很奇怪吗?
    Ticket ID : {EVNT_164838_2013040520130402_33147_10348}  
    Event type : Access blocked
    Event date : 04/05/2013 - 19:19:07 (server date-time)
    Event counter : First occurring
    Processed url : http://streambutler.net/
    From url : Unknown or direct link
    Domain : streambutler.net
    Domain IP : 95.170.70.213
    Visitor IP : 66.249.81.131
    Proxy IP : (not present)

    Critical : Yes
    Action required : No


    Additional information
    Problem : Blocked Server IP address (analysis) - 66.249.81.131
    Hostname : google-proxy-66-249-81-131.google.com
    Block : Yes
    Refferer : (direct access)
    AgentString : Mozilla/5.0 (Windows NT 6.1; rv:6.0) Gecko/20110814 Firefox/6.0 ...
    Browser : Firefox 6.0
    Platform : Windows 7
    Robot : No
    Mobile : No
    Tablet : No
    Console : No
    Crawler : No
    Agent_type : browser
    Agent_name : firefox
    Agent_version : 6.0
    Os_type : windows
    Os_name : windows 7
    Agent_languagetag : en
    Status : ok
    Request : 66.249.81.131
    Languagecode : us
    Country : United States
    Region : California
    City : Mountain View
    Zipcode : 94043
    Latitude : 37.406
    Longitude : -122.079
    Timezone : -07:00
    Available from : \'http
    Areacode : 0
    Dmacode : 0
    Continentcode : na
    Currencycode : USD
    Currencysymbol : $
    Currencysymbol_utf8 : $
    Currencyconverter : 1
    Extended : 1
    Organization : NULL

    编辑:解决方案:

    知道了! 这些“爬虫”不是爬虫,而是 Google 搜索引擎中使用的实时网站预览的一部分。

    我试过这个,在预览中显示我的一个网站,是的,它在那里,收到了一条被阻止的 IP 消息。

    如果您希望用户能够查看您网站的预览,您必须接受这些“爬虫”。

    就像其他人说的那样:“该 URL 的根域是 google.com,并且不容易被欺骗”。

    结论:您可以信任这些机器人或爬虫,它用于在谷歌搜索中显示预览。

    最佳答案

    我还没有确认,但我怀疑这些 IP 可能与 Google 的 Google Chrome Mobile 数据压缩代理相关联:

    https://developers.google.com/chrome/mobile/docs/data-compression

    如果是这种情况,阻止它们将导致您的网站对一些完全无辜的移动用户显示不正确。

    它也可能与用于使用 Google +1 按钮抓取网页摘要的 Google+ 抓取工具相关联:

    https://code.google.com/p/google-plus-platform/issues/detail?id=178

    最重要的是,这些 IP 用于由 Google 内部的东西发起的网络请求。它们不是公共(public)网络代理。

    关于php - 谷歌代理是假爬虫?例如 : google-proxy-66-249-81-131. google.com,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15840440/

    31 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com