gpt4 book ai didi

web-crawler - 如何保护/监控您的网站不被恶意用户抓取

转载 作者:行者123 更新时间:2023-12-04 20:00:52 24 4
gpt4 key购买 nike

情况:

  • 内容受用户名/密码保护的网站(并非全部受控,因为他们可以是试用/测试用户)
  • 由于用户名/密码限制,普通搜索引擎无法访问它
  • 恶意用户仍然可以登录并将 session cookie 传递给“wget -r”或其他东西。

问题是监控此类事件并对其做出响应的最佳解决方案是什么(考虑到网站政策是不允许抓取/抓取的)

我能想到一些选择:

  1. 设置一些流量监控解决方案以限制给定用户/IP 的请求数量。
  2. 与第一点相关:自动阻止某些用户代理
  3. (Evil :)) 设置一个隐藏链接,当访问该链接时,用户会注销并禁用他的帐户。 (大概这不会被普通用户访问,因为他不会看到它来点击它,但机器人会抓取所有链接。)

对于第 1 点,您是否知道已经实现的良好解决方案?有什么经验吗?一个问题是一些误报可能会出现在非常活跃但人性化的情况下用户。

对于第3点:你认为这真的很邪恶吗?或者您认为它有任何可能的问题吗?

也接受其他建议。

最佳答案

我不推荐自动锁定,不是因为它们必然是邪恶的,而是因为它们会立即向恶意用户提供他们触发传感器的反馈,并让他们知道下一个不要做同样的事情他们注册的帐户。

而且用户代理阻止可能不会很有帮助,因为显然用户代理很容易伪造。

您可能做的最好的事情就是监控,但是如果您检测到恶意行为,您仍然需要问自己将要做什么。只要您拥有不受控制的访问权限,您锁定的任何人都可以以不同的身份再次注册。我不知道您需要什么样的信息才能获得一个帐户,但例如,姓名和电子邮件地址对任何人来说都不会成为太大的障碍。

这是典型的 DRM 问题——如果任何人都可以看到信息,那么任何人都可以用它做任何他们想做的事情。你可以让它变得困难,但最终如果某人真的下定决心,你就无法阻止他们,而且你可能会干扰合法用户并损害你的业务。

关于web-crawler - 如何保护/监控您的网站不被恶意用户抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/385069/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com