screen-scraping - 识别恶意网络爬虫-6ren

screen-scraping - 识别恶意网络爬虫

转载作者：行者123 更新时间：2023-12-04 22:17:33

28

4

我想知道是否有任何技术可以识别收集信息以供非法使用的网络爬虫。通俗地说，数据盗窃是为了创建一个网站的副本。

理想情况下，该系统会检测来自未知来源的抓取模式(如果 Google 抓取工具不在列表中，等等)，并向抓取抓取工具发送虚假信息。

如果作为防御者，我检测到定期访问站点的未知爬虫，攻击者将随机化间隔。

如果作为防御者，我检测到相同的代理/IP，攻击者将随机化代理。

这就是我迷路的地方 - 如果攻击者随机化和代理的间隔，我将如何 而不是 区分代理和机器从同一网络访问该站点？

我正在考虑使用 javascript 和 cookie 支持检查可疑代理。如果柏忌不能始终如一地做到，那么它就是一个坏人。

我还可以做些什么？是否有任何算法，甚至是设计用于快速实时分析历史数据的系统？

最佳答案

我的解决办法是做一个陷阱。在您的网站上放置一些被 robots.txt 禁止访问的页面。在你的页面上创建一个链接，但用 CSS 隐藏它，然后 ip 禁止访问该页面的任何人。

这将迫使冒犯者遵守 robots.txt，这意味着您可以将重要信息或服务永久远离他，这将使他的抄送克隆无用。

关于screen-scraping - 识别恶意网络爬虫，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/930028/

28

4

0

文章推荐： php - 在 Woocommerce 中结帐后更改订单总额

文章推荐： regex - 在 perl 样式的正则表达式中匹配字符串的其余部分

文章推荐： perl - 为什么我的 Perl 程序在 fork 之后不收割子进程？

文章推荐： php - Twitter API获取任何用户的所有推文

linux - 有人可以解释这是做什么的吗？ (恶意)
这个问题在这里已经有了答案: The Bash command :(){ :|:& };: will spawn processes to kernel death. Can you explain
javascript - 恶意 JavaScript 代码
这个恶意 javascript 代码到底在做什么？ (function () { var qk = document.createElement('iframe'); qk.src =
javascript - (恶意)用户可以在运行时编辑我的 JavaScript 代码吗？
我的 JavaScript 代码是否可以在运行时被(恶意)用户编辑，即使它已上传到网络托管站点？例如，如果我在脚本中声明一个变量，如下所示: var myvalue = 2; 我想知道是否可以编辑为
javascript - 恶意 javascript 注入(inject) - 它有什么作用？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 9
javascript - 是否可以通过 $() 注入(inject)恶意 javascript 代码？
例子: if($('#' + untrusted_js_code).length) > 0 ....` 通常“untrusted_js_code”应该是表示项目 ID 的简单字符串。变量的值来自
javascript - 我的 URL 末尾的 ?reqp=1&reqr=... 是什么？恶意？
我不确定这是 StackOverflow 还是更多的程序员问题，但这里的其他几个人也提出了类似的问题。在扫描我的 Google Analytics 帐户时，我注意到一些退出链接标记有查询字符串: ?
java - 使用 java 脚本 API 查找和销毁不良/恶意 java 脚本代码
我正在开发一个 servlet(在 tomcat 上运行)，它接收包含 Java 脚本代码的请求，并使用 java 脚本 API 框架评估/运行代码并将答案返回给用户。由于我们处理的是用户生成的代码
javascript - 恶意 js 会自动注入(inject)我的 header.php 文件和许多其他 js 文件？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 9 年前。 Improve this

首页

博学

6Ren·AI

商城

screen-scraping - 识别恶意网络爬虫