html - 如何阻止 Google 抓取网络服务网址？-6ren

html - 如何阻止 Google 抓取网络服务网址？

转载作者：行者123 更新时间：2023-11-28 03:51:58

25

4

我发现 GoogleBot 正在抓取 JavaScript/AJAX 代码中引用的网络服务 URL。该 URL 已作为排除项包含在 robots.txt 中，但 Google 在确定要抓取的内容时似乎不再遵守 robots.txt - 它似乎只是用它来了解什么不索引。

谢天谢地，这些服务 URL 只返回数据而不是执行操作，但它扰乱了我们收集的统计数据，这是非常不受欢迎的。我个人看不出 Google 是如何找到网络服务的 URL 的，除非它在 Javascript 代码中抓取任意字符串(这似乎不太可能？)。

对于某些 URL，这也会导致我从网站收到很多 Elmah 错误消息，这些消息说:

System.InvalidOperationException:无法识别以“/GetShortlists”结尾的 URL 的请求格式。” ... 因为 Google 试图GET 仅支持的 URL 发布。

它在其中查找 URL 的代码如下:

function GetShortlistsForUser() {
    $.ajax({
        type: "POST", url: "/WebService/WebService.asmx/GetShortlists",
        contentType: "application/json; charset=utf-8",
        dataType: "json",
        success: function (data) { /*--CUT--*/ });
        }
    });

那么我应该通过替换斜杠来混淆 URL，还是有更好的方法来阻止这些被抓取？

最佳答案

(1) 尝试打破 javascript 代码中的 url 格式，例如，

var breaker="x/G";
......
url: "/WebServic"+"e/WebService."+"asm"+breaker+"etshortlists",

因为 Google 可能会使用正则表达式来确定哪一部分是 url...(我不确定这是否可以阻止爬虫，但如果它有效，你不需要将其分解到这个扩展，因为它也会破坏代码阅读经验。)

(2) 在您的服务器上，Google 爬虫通常使用自定义的代理字符串，因此您可以拒绝(或忽略)。

关于html - 如何阻止 Google 抓取网络服务网址？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25805154/

25

4

0

文章推荐： javascript - Meteor HTTP.get 错误处理

文章推荐： c++ - 从 win32 线程调用 TForm 的成员应该满足什么条件？

文章推荐： c++ - 关于变量类型 "double"的问题

文章推荐： javascript - 如何解决显示属性的过渡？

javascript - 在 Node Express 应用程序中设置通用路由。 (网址/索引、网址/索引2、网址/索引3...)
我正在通过 NodeSchool.io 练习学习 React 和 Express 框架。我想将所有练习文件存储在具有多个页面的单个应用程序中，例如索引索引2 索引3 索引4 .... local
java - 这种变量在 Android 中意味着什么？ (网址...网址，整数...进度)
从这里:http://developer.android.com/reference/android/os/AsyncTask.html doInBackground(URL... urls) onP
email - 如何解决垃圾邮件中的/@网址？
我最近收到了一封电子邮件，其中包含以下内容(请勿点击!): UNS 这是原始电子邮件的链接:https://gist.github.com/anonymous/16963a230cab0a3a1bc
Android TextView 网址
在 android 中，可以单击带有 URL 的 TextView 以在网络中打开 URL，方法是: android:autoLink="web" 我想做的是捕获这次点击，如果这个 TextView
javascript - channel 网址
我在我的网站上以 mysite.anotherdomain.org 的形式实现 Facebook 登录。我在 JavaScript SDK 的文档中做了所有解释，但由于我遇到了一些问题，我想知道错误是
javascript - 从窗口位置获取值。网址
我在 window.location.href 中有响应网址，我需要其中的 error、error_description 和 state 的值 http://localhost:4200/#erro
javascript - 当用户到达底部时如何加载新页面/网址
我正在创建无限加载，意味着当用户到达页面底部/特定 div 时会加载新页面。目前我有这个代码可以在点击时加载新页面。 $("#about").click(function(){ // load
web - 如何告诉像谷歌这样的搜索引擎显示它的标签/网址？
当我们在谷歌引擎中搜索时，它也会显示热门网站标签或链接。就像我们搜索“bing”或“net beans”时一样。问:它如何显示这些链接。我们是否必须告诉它显示这些链接。问:它是否与 sitemap
php 网址 explode
我想从我的网址中获取我的产品。例如: http://www.website.com/product-category/iphone 我想获取 iphone，这对我的代码来说没问题，但我有一个下拉菜单来
Pythonanywhere，如何使用静态文件？网址？
我对 Pythonanywhere 完全陌生，我不知道为什么静态文件没有加载...这是我存储 css 和图像的路径，即 static/images/wikiLang.png 等 /static/adm
regex - 正则表达式 Youtube 网址
我正在使用这个正则表达式来验证 youtube 网址。 ^http:\/\/(?:www\.)?youtube.com\/watch\?(?=.*v=\w+)(?:\S+)?$ 它很好用。但我有这个
url - 我如何使用这个 github 网址？
我刚刚在 gist.github 上传了一个我正在处理的小编码项目，因为它似乎是一次上传几个类的好方法。我想将某人与我的“要点”联系起来，并在角落里写着: Public Clone URL: git
jquery - 正则表达式验证 Twitter 网址
我正在使用 jQuery 验证引擎来解析我的表单数据: https://github.com/posabsolute/jQuery-Validation-Engine 验证 Twitter URL 的
Django utf-8 网址
我有一个 Django 应用程序，它可以在 localhost 上正常工作。即使对于 utf-8 URL 路径也是如此。但是当我在生产中使用它时，它给了我一个错误: 2019-09-01 14:32:
image - Laravel Assets 网址
我已经安装了Laravel并开始尝试编写一个应用程序。我在/ app所在的目录中为 Assets 创建了一些目录。但是，当我尝试访问本地主机中的图像时，例如:http://localhost/asse
video - 批量检查 YouTube 网址
我们正在寻找一种方法来检查一长串 YouTube 网址，以查找目前私有(private)、已删除或不再可用的视频。我们可以检查状态，但即使视频不再公开可用，URL 也会返回 200。例如这两个: ht
YouTube 直播 RTMP 网址
我在 YouTube 上有现场事件，我想在我的网站上播放它。我想将我的事件设为私有(private)，获取它的 RTMP 广播 URL 并将其粘贴到我的网站上，在 JWPlayer 中。那可能吗？
nginx - 如何防止谷歌索引我的 https 网址？
当我在谷歌上搜索我的域时，它会显示我网站上的几个 https 网址，因为谷歌喜欢 https，但出于特殊原因我不想索引 https/ssl 版本。如何避免这种情况，全世界都只通过 htaccess
php - 如何在PHP中获取网页的当前完整网址(网址+片段)？
我想获取在 Salesforce.com 授权期间作为回调收到的当前 URL。 url 中的数据位于片段部分。最佳答案您可以使用 $_SERVER['HTTP_HOST'] 和 $_SERVER[
angularjs - 如何刷新 iframe 网址？
我正在使用 ionic 创建一个应用程序，其中我使用 iframe 显示 URL。这是 HTML 代码: 这是 Angular js: $scope.iframeHeight = windo

首页

博学

6Ren·AI

商城

html - 如何阻止 Google 抓取网络服务网址？