gpt4 book ai didi

.htaccess - 为什么 google 会找到被 robots.txt 排除的页面?

转载 作者:行者123 更新时间:2023-12-01 11:41:41 24 4
gpt4 key购买 nike

我正在使用 robots.txt 从蜘蛛程序中排除一些页面。

User-agent: * 
Disallow: /track.php

当我搜索引用到此页面的内容时,Google 说:“由于此网站的 robots.txt,此结果的描述不可用 - 了解更多信息。”

这意味着 robots.txt 正在工作.. 但为什么页面链接仍然被蜘蛛找到?我不想链接到“track.php”页面...我应该如何设置 robots.txt? (或者类似 .htaccess 之类的..?)

最佳答案

事情是这样的:

  • Googlebot 在其他某个页面上看到了指向 track.php 的链接。我们将该页面称为“source.html”。
  • Googlebot 试图访问您的 track.php 文件。
  • 您的 robots.txt 告诉 Googlebot 不要读取该文件。

所以 Google 知道 source.html 链接到 track.php,但不知道 track.php 包含什么。你没有告诉谷歌不要索引 track.php;您告诉 Googlebot 不要读取和索引数据 inside track.php。

作为Google's documentation says :

While Google won't crawl or index the content of pages blocked by robots.txt, we may still index the URLs if we find them on other pages on the web. As a result, the URL of the page and, potentially, other publicly available information such as anchor text in links to the site, or the title from the Open Directory Project (www.dmoz.org), can appear in Google search results.

对此您无能为力。对于您自己的页面,您可以使用该文档中所述的 x-robots-tagnoindex 元标记。这将阻止 Googlebot 在您的网页中找到链接时将 URL 编入索引。但是,如果您无法控制的某些页面链接到该 track.php 文件,那么 Google 很可能会将其编入索引。

关于.htaccess - 为什么 google 会找到被 robots.txt 排除的页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19837376/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com