gpt4 book ai didi

java - 是否可以检测页面抓取?

转载 作者:搜寻专家 更新时间:2023-10-31 22:04:01 26 4
gpt4 key购买 nike

所以我刚刚创建了一个应用程序来为我抓取页面并运行它。它运作良好。我想知道是否有人能够弄清楚代码正在被页面抓取,他们是否为此目的编写了代码?

我用 java 编写代码,它几乎只是检查一行 html 代码。

我想在我向这个程序添加更多代码之前,我会对此有所了解。我的意思是它很有用,但它几乎就像一个 hack。

这似乎是最坏的情况,因为这个页面抓取器并不太糟糕,因为我可以稍后使用另一台设备并且 IP 会有所不同。一个月内也可能无关紧要。无论如何,该网站目前似乎获得了相当多的网络流量。编辑该页面的人现在可能正在 sleep ,此时它确实没有完成任何事情,所以这可能不会引起注意。

感谢您这么快的回复。我认为它可能没有引起注意。我所做的只是复制一个标题,所以只是文本。我想这可能类似于浏览器复制粘贴的工作方式。该页面是今天早上刚刚编辑的,包括我试图获取的文本。如果他们确实发现了什么,他们还没有宣布,所以一切都很好。

最佳答案

这是一个黑客。 :)

无法以编程方式确定页面是否正在被抓取。但是,如果您的抓取工具变得流行或者您使用它的次数过多,则很有可能从统计上检测到抓取。如果您看到一个 IP 每天在同一时间抓取同一个页面或多个页面,您可以做出有根据的猜测。如果您在另一个计时器上看到请求,也是如此。

如果可以的话,您应该尽量遵守 robots.txt 文件,并限制自己的速度以保持礼貌。

关于java - 是否可以检测页面抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6936453/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com