gpt4 book ai didi

algorithm - 检测网页抓取的方法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:25:38 24 4
gpt4 key购买 nike

我需要检测我网站上的信息抓取。我尝试了基于行为模式的检测,虽然计算量相对较大,但似乎很有希望。

基础是收集特定客户端的请求时间戳,并将其行为模式与常见模式或预先计算的模式进行比较。

更准确地说,我将请求之间的时间间隔收集到数组中,按时间函数索引:

i = (integer) ln(interval + 1) / ln(N + 1) * N + 1
Y[i]++
X[i]++ for current client

其中 N 是时间(计数)限制,大于 N 的间隔将被丢弃。最初 X 和 Y 都用 1 填充。

然后,当我在 X 和 Y 中得到足够数量的它们之后,就该做出决定了。 Criteria 是参数 C:

C = sqrt(summ((X[i]/norm(X) - Y[i]/norm(Y))^2)/k)

其中X为特定客户端数据,Y为普通数据,norm()为校准函数,k为归一化系数,取决于norm()的类型。有 3 种类型:

  1. norm(X) = summ(X)/count(X), k = 2
  2. norm(X) = sqrt(summ(X[i]^2), k = 2
  3. norm(X) = max(X[i]), k是非空元素个数X的平方根

C 在范围 (0..1) 内,0 表示没有行为偏差,1 表示最大偏差。

C 校准类型 1 最适合重复请求,类型 2 最适合间隔很少的重复请求,类型 3 最适合非恒定请求间隔。

你怎么看?如果您能在您的服务上尝试这个,我将不胜感激。

最佳答案

老实说,您的方法完全没有值(value),因为它是微不足道的绕过。攻击者甚至不必编写一行代码来绕过它。代理服务器是 free你可以在 amazon ec2 上用新的 ip 地址启动一台新机器,每小时 2 美分。

更好的方法是 Roboo它使用 cookie 技术来阻止机器人。绝大多数机器人无法运行 javascript 或 flash,而这可以为您所用。

然而,所有这些“(in) security though obscurity”,以及它可能起作用的唯一原因是因为您的数据不值得程序员在上面花费 5 分钟。 (包括机器人)

关于algorithm - 检测网页抓取的方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5372115/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com