gpt4 book ai didi

security - 如何阻止搜索引擎抓取整个网站?

转载 作者:行者123 更新时间:2023-12-02 18:41:32 25 4
gpt4 key购买 nike

我想阻止搜索引擎抓取我的整个网站。

我有一个 Web 应用程序供公司成员使用。它托管在网络服务器上,以便公司的员工可以访问它。没有其他人(公众)需要它或发现它有用。

因此,我想添加另一层安全性(理论上),以通过完全删除所有搜索引擎机器人/爬虫对其的访问来尝试防止未经授权的访问。从商业角度来看,让 Google 为我们的网站建立索引以使其可搜索是毫无意义的,只会为黑客提供另一种方式来首先找到该网站并尝试对其进行攻击。

我知道在robots.txt中,您可以告诉搜索引擎不要抓取某些目录。

是否可以告诉机器人不要抓取整个网站,而不必列出所有不抓取的目录?

最好使用 robots.txt 完成此操作,还是使用 .htaccess 或其他文件更好?

最佳答案

使用 robots.txt 将网站排除在搜索引擎索引之外有 one minor and little-known problem :如果有人从 Google 索引的任何页面链接到您的网站(这种情况必须发生,Google 才能找到您的网站)无论如何,无论 robots.txt 与否),Google may still index the link 并将其显示为搜索结果的一部分,即使您不允许他们获取链接指向的页面。

如果这对您来说可能是个问题,解决方案是使用robots.txt,而是包含robots元在您网站的每个页面上添加值为 noindex,nofollow 的标记。您甚至可以使用 mod_headersX-Robots-Tag HTTP header 在 .htaccess 文件中执行此操作:

Header set X-Robots-Tag noindex,nofollow

此指令会将 header X-Robots-Tag: noindex,nofollow 添加到其适用的每个页面,包括图像等非 HTML 页面。当然,您可能也想包含相应的 HTML 元标记,以防万一(这是一个较旧的标准,因此可能得到更广泛的支持):

<meta name="robots" content="noindex,nofollow" />

请注意,如果您这样做,Googlebot 仍会尝试抓取它找到的指向您网站的任何链接,因为它需要在看到 header /元标记之前获取页面。当然,有些人可能会认为这是一个功能而不是错误,因为它可以让您查看访问日志以查看 Google 是否找到了指向您网站的任何链接。

无论如何,无论您做什么,请记住,很难长期保守“ secret ”网站的 secret 。随着时间的推移,您的一位用户意外泄露该网站链接的可能性接近 100%,如果有任何理由认为某人有兴趣查找该网站,您应该假设他们会这样做。因此,请确保您在您的网站上设置适当的访问控制、保持软件最新并定期对其进行安全检查。

关于security - 如何阻止搜索引擎抓取整个网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9102914/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com