gpt4 book ai didi

screen-scraping - 识别恶意网络爬虫

转载 作者:行者123 更新时间:2023-12-04 22:17:33 28 4
gpt4 key购买 nike

我想知道是否有任何技术可以识别收集信息以供非法使用的网络爬虫。通俗地说,数据盗窃是为了创建一个网站的副本。

理想情况下,该系统会检测来自未知来源的抓取模式(如果 Google 抓取工具不在列表中,等等),并向抓取抓取工具发送虚假信息。

  • 如果作为防御者,我检测到定期访问站点的未知爬虫,攻击者将随机化间隔。
  • 如果作为防御者,我检测到相同的代理/IP,攻击者将随机化代理。

  • 这就是我迷路的地方 - 如果攻击者随机化 代理的间隔,我将如何 而不是 区分代理和机器从同一网络访问该站点?

    我正在考虑使用 javascript 和 cookie 支持检查可疑代理。如果柏忌不能始终如一地做到,那么它就是一个坏人。

    我还可以做些什么?是否有任何算法,甚至是设计用于快速实时分析历史数据的系统?

    最佳答案

    我的解决办法是做一个陷阱。在您的网站上放置一些被 robots.txt 禁止访问的页面。在你的页面上创建一个链接,但用 CSS 隐藏它,然后 ip 禁止访问该页面的任何人。

    这将迫使冒犯者遵守 robots.txt,这意味着您可以将重要信息或服务永久远离他,这将使他的抄送克隆无用。

    关于screen-scraping - 识别恶意网络爬虫,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/930028/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com