gpt4 book ai didi

asp.net-mvc - 保护网站内容免受爬虫的侵害

转载 作者:行者123 更新时间:2023-12-04 21:50:00 34 4
gpt4 key购买 nike

商业网站 (ASP.NET MVC) 的内容会定期被竞赛爬取。这些人是程序员,他们使用复杂的方法来抓取网站,因此无法通过 IP 识别他们。
不幸的是,用图像替换值不是一种选择,因为屏幕阅读器 (JAWS) 仍应保持该站点可读。

我个人的想法是使用robots.txt:禁止爬虫访问页面上的一个常用URL(这可以伪装成普通的元素详情链接,但对普通用户隐藏有效的URL:http://example.com?itemId=1234禁止:http://example.com?itemId=123低于128) .如果 IP 所有者输入了禁止链接,则显示 CAPTCHA 验证。
普通用户永远不会关注这样的链接,因为它不可见,Google 不必抓取它,因为它是伪造的。这个问题是屏幕阅读器仍然阅读链接,我认为这不会如此有效,值得实现。

最佳答案

您的想法可能适用于一些基本的爬虫,但很容易解决。他们只需要使用代理并从新 IP 获取每个链接。

如果您允许匿名访问您的网站,那么您将永远无法完全保护您的数据。即使您设法通过大量时间和精力来阻止爬虫,他们也可以让人类使用 fiddler 之类的东西浏览和捕获内容。防止竞争对手看到您的数据的最佳方法是不要将其放在您网站的公共(public)部分。

强制用户登录可能会有所帮助,至少你可以找出谁在爬你的网站并禁止他们。

关于asp.net-mvc - 保护网站内容免受爬虫的侵害,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6596373/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com