gpt4 book ai didi

screen-scraping - 防止屏幕抓取

转载 作者:行者123 更新时间:2023-12-03 08:59:11 24 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。

9年前关闭。




Improve this question




继我关于 Legalities of screen scraping 的问题之后,即使是非法的人们仍然会尝试,所以:

可以采用哪些技术机制来防止或至少抑制屏幕抓取?

哦,只是为了笑容和让生活变得困难,保留搜索引擎的访问权限可能会很好。我很可能在这里扮演魔鬼的拥护者,但有一个严重的潜在问题。

最佳答案

因此,一种方法是混淆代码(rot13 或其他东西),然后在页面中添加一些 javascript 来执行类似 document.write(unobfuscate(obfuscated_pa​​ge)) 的操作。但这完全摧毁了搜索引擎(可能!)。

当然,这实际上也不能阻止想要窃取您数据的人,但它确实使事情变得更加困难。

一旦客户端获得了数据,游戏就结束了,所以你需要在服务器端查看一些东西。

鉴于搜索引擎基本上是屏幕抓取工具,事情很困难。你需要看看好的屏幕刮板和坏的屏幕刮板有什么区别。当然,您也只有普通的人类用户。因此,这归结为一个问题,即您如何在服务器上有效地将请求分类为来自人、好的屏幕抓取工具或坏的屏幕抓取工具。

所以,开始的地方是查看你的日志文件,看看是否有一些模式可以让你有效地对请求进行分类,然后在确定模式后,看看是否有某种方式导致屏幕刮板坏了。分类,可以伪装成人类或良好的屏幕刮板。

一些想法:

  • 您也许可以通过 IP 地址确定好的屏幕抓取工具。
  • 您可以通过并发连接数、每个时间段的连接总数、访问模式等来确定爬虫与人工。

  • 显然,这些并不理想或万无一失。另一种策略是确定你可以采取哪些对人类不显眼的措施,但(可能)对爬虫来说很烦人。一个例子可能是减慢请求的数量。 (取决于请求的时间紧迫性。如果他们实时抓取,这将影响他们的最终用户)。

    另一方面是着眼于更好地为这些用户服务。显然,他们正在抓取,因为他们想要数据。如果您为他们提供一种直接获取有用格式数据的简单方法,那么他们将更容易做到这一点,而不是屏幕抓取。如果有一种简单的方法,那么可以规范对数据的访问。例如:给请求者一个唯一的key,然后限制每个key的请求数以避免服务器过载,或者每1000个请求收费等。

    当然,仍然有人会想要敲诈你,然后可能还有其他方法可以抑制,但他们可能开始变得非技术性,并且需要说服法律途径。

    关于screen-scraping - 防止屏幕抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/396817/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com