asp.net - 如何防止未经授权的蜘蛛抓取-6ren

asp.net - 如何防止未经授权的蜘蛛抓取

转载作者：行者123 更新时间：2023-12-02 08:39:37

25

4

我想防止从我们的网站之一自动抓取 html，同时不影响合法的蜘蛛抓取(googlebot 等)。是否已经存在可以实现此目的的东西？我使用的术语是否正确？

编辑:我主要是为了防止有人恶意这样做。 IE。他们不会遵守 robots.txt

EDIT2:如何通过“使用率”阻止使用……即，如果检测到自动化并且流量不是来自合法(google、yahoo、msn 等)IP，则使用验证码继续浏览。

最佳答案

这即使不是不可能实现，也是很困难的。许多“流氓”蜘蛛/爬行程序不通过用户代理字符串来识别自己，因此很难识别它们。您可以尝试通过 IP 地址阻止他们，但很难跟上将新 IP 地址添加到阻止列表的步伐。如果使用 IP 地址，也有可能阻止合法用户，因为代理使许多不同的客户端显示为单个 IP 地址。

在这种情况下使用 robots.txt 的问题是蜘蛛可以选择忽略它。

编辑: 速率限制是一种可能性，但它也遇到了识别(并跟踪)“好”和“坏”用户代理/IP 的一些相同问题。在我们编写的进行一些内部页面浏览/ session 计数的系统中，我们根据页面浏览率消除 session ，但我们也不担心消除“好”蜘蛛，因为我们也不希望将它们计入数据中。我们不会采取任何措施阻止任何客户实际查看页面。

关于asp.net - 如何防止未经授权的蜘蛛抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/449376/

25

4

0

文章推荐： django - 如何获取haystack搜索中搜索结果的数量？

文章推荐： prolog - 逻辑编程: how to distribute resources among consumers?

文章推荐： ajax-datatables-rails 如何在ajax响应中添加按钮

文章推荐： plugins - 洋泾浜插件必须使用什么语言？

android - 未经 WRITE_EXTERNAL_STORAGE 许可将声音设置为铃声？
据我所知，要将声音设置为铃声，应将其插入 MediaStore。在 MediaStore 中写入，需要 WRITE_EXTERNAL_STORAGE 权限。但是...有没有办法在不需要 WRITE_E
android - 未经 WRITE_SETTINGS 明确许可设置自定义铃声
我只是想设置铃声。我不想授予 WRITE_SETTINGS 权限，我可以找到大部分答案来授予 WRITE_SETTINGS 权限但是我正在使用一个应用程序，该应用程序没有设置铃声的 WRITE_SET
Flutter SDK 未经 AVD 授权
我在 Windows 10 中以管理员身份运行 Android studio。AVD 是 Nexus 5X API 28。我正在尝试运行 flutter 演示，但设备下拉框仍然显示“无设备”，它只是有
twitter - 回调 URL 未经 Twitter 批准
我的应用程序构建于 spring-social-twitter允许用户使用 Twitter 登录的功能最近已停止工作。我收到如下错误消息: Callback URL not approved for
python - (401) 未经 python-firebase 授权
我正在尝试使用 python-firebase 更新 Firebase库，但无法使用经过修改的示例代码进行身份验证: from firebase import firebase as fb auth
c++ - 未经 GCC 优化编译的简单 C++ 程序不会生成预期结果
今天，当我尝试使用 GCC7 编译一个非常简单的 C++ 程序时，我遇到了一个非常奇怪的问题:程序没有向构造函数中的 vector 添加任何元素，当编译时没有优化(例如 -O0/-Og ) 来自 Re
python - Discord API 401 未经 OAuth 授权
简单问题:我正在尝试使用 Discord API 备份服务器(或公会，如果您使用官方术语)上的所有消息。因此，我实现了 OAuth，没有任何问题，我有访问 token ，并且可以查询一些端点(我尝试
c# - 未经 Microsoft 许可，我可以使用 MSDN 中的示例代码吗？
您好，我正在使用 msdn 中的以下代码供我公司内部使用: using System; public sealed class Singleton { private static volati
android - 间歇性 401 未经 Google GCM 授权
我们从 Google 的 GCM 服务中收到间歇性的 401 Unauthorized 错误。在过去，它 100% 的时间都有效。该问题可能与我们的路由器接受 IPv6 流量同时发生，但即使我们在适配
typescript - 未经 TS-Jest 处理的非测试 TypeScript 文件。在运行时找不到具有绝对路径的模块
我有一个使用 Playwright + TS-Jest 设置 E2E 测试的项目。为了组织我的测试，我使用页面对象模型。结构看起来像这样: 我想在 tsconfig.json 中使用 TypeScri
javascript - 未经 Google Cloud Storage 的 javascript 授权列出存储桶中的文件
我有一个后端应用程序在 Google Cloud Storage 中同步文件，我想在 javascript 中列出存储中的所有文件，而不需要从后端请求它们。我已经设置了 CORS，并且所有文件的 ac
maven - 发布到 gitlab artifactory 时 401 未经 maven 授权
我在尝试在私有(private) gitlab 存储库中发布 Artifact 时遇到问题。我正在使用 Maven 并使用个人访问 token 进行身份验证。当我运行 mvn deploy -s ~/
android - 未经 GET_ACCOUNTS 许可从 GoogleApiClient 获取 Google 帐户 token
这是从 Google+ 登录中使用的 GoogleApiClient 获取 token 的传统方式: String token = GoogleAuthUtil.getToken(apiClient.
php - 未经 App 许可的 Facebook Open-Graph API 订阅或更新通知
我在阅读 facebook Open Graph 文档后比较确定我不能让网站“订阅”公共(public)页面，除非该页面安装了我的应用程序。如果那是错误的，请告诉我。我想做的是一个照片库，非常简单，

首页

博学

6Ren·AI

商城

asp.net - 如何防止未经授权的蜘蛛抓取