gpt4 book ai didi

php - 防止 WGET 和其他自动下载网站

转载 作者:太空宇宙 更新时间:2023-11-04 15:46:39 25 4
gpt4 key购买 nike

我有一个 PHP 网站。最近几周,我的网站从一个位置获得了大量自动点击。它表明有人正在以自动方式“偷猎”内容,而不是通过适当的浏览器访问该站点。我想这是由 WGET(或 CURL 或其他)等工具/实用程序完成的。

有没有办法阻止这种自动访问?

为了进行调查,我尝试在 Yahoo、US News 和 Bloomberg 等热门网站上使用 WGET,WGET 实用程序成功地从 Yahoo 和 US News 下载页面(HTML 代码)。然而,在彭博页面样本上的类似尝试失败了。

我使用的命令:

wget64.exe https://www.bloomberg.com/research//stocks/snapshot/snapshot_article.asp?ticker=CWEN

保存的结果文件具有以下内容:

<h2 class="main__heading">We've detected unusual activity from your computer network</h2>

<p class="continue">To continue, please click the box below to let us know you're not a robot.</p>
<div id="px-captcha"></div>
</section>
<section class="box">
<section class="info">
<h3 class="info__heading">Why did this happen?</h3>
<p class="info__text">Please make sure your browser supports JavaScript and cookies and that you are not blocking them from loading. For more information you can review our <a class="info__link" href="/notices/tos">Terms of Service</a> and <a class="info__link" href="/notices/tos">Cookie Policy</a>

这表明至少彭博社有办法阻止这种自动访问。有谁知道网站管理员可以采取什么措施来防止这种自动访问(例如彭博社已经实现)。

虽然我同意互联网访问应该是免费的,但有时需要实现一些限制以防止未经授权的访问。

最佳答案

使用 .htaccess 文件中的以下内容可以轻松捕获 Wget。

RewriteCond %{HTTP_USER_AGENT} wget.* [NC]
RewriteRule .* - [F,L]

但是,如果更改了 User Agent 字符串,那么您可能永远不知道它是 Wget。

您还可以查看如何阻止机器人。 http://www.robotstxt.org/

http://www.javascriptkit.com/howto/htaccess13.shtml

关于php - 防止 WGET 和其他自动下载网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55017900/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com