gpt4 book ai didi

web-scraping - 防止网页抓取

转载 作者:行者123 更新时间:2023-12-04 05:15:47 26 4
gpt4 key购买 nike

我目前是开发包含前端客户端的应用程序的团队的一员。

我们通过这个客户端发送用户数据,每个用户都有一个用户 ID,客户端通过 RESTful API 与我们的服务器对话,向服务器询问数据。

例如,假设我们有一个图书数据库,用户可以获取作者最近写的 3 本书。我们重视用户的时间,我们希望用户无需明确注册即可开始使用产品。

我们重视我们的数据库,我们使用我们自己的专有软件来填充它,并希望尽可能多地保护它。

所以基本上问题是:

我们可以做些什么来保护自己免受网络抓取?

我非常想了解一些保护我们数据的技术,我们希望防止用户在作者搜索面板中输入每个作者的名字,并提取每个作者写的前三本书。

任何建议的阅读将不胜感激。

我只想提一下,我们知道验证码,并希望尽可能避免使用它们

最佳答案

防止这种情况的主要策略是:

  • 需要注册,因此您可以限制每个用户的请求
  • 注册和非注册用户的验证码
  • IP 速率限制
  • 需要 JavaScript - 编写一个可以读取 JS 的爬虫更难
  • 机器人阻止和机器人检测(例如请求率、隐藏链接陷阱)
  • 数据中毒。放入没有人想要的书籍和链接,这会阻止盲目收集所有内容的机器人的下载。
  • 突变。经常更改您的模板,这样爬虫可能无法找到所需的内容。

  • 请注意,您可以非常灵活地使用验证码。

    例如:每天每个 IP 的第一本书是非验证码保护的。但是为了访问第二本书,需要解决验证码。

    关于web-scraping - 防止网页抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14377295/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com