gpt4 book ai didi

robots.txt - 阻止包含特定词的 URLS 的谷歌机器人

转载 作者:行者123 更新时间:2023-12-04 13:24:37 25 4
gpt4 key购买 nike

我的客户有很多他们不想被谷歌索引的页面——它们都被称为

http://example.com/page-xxx

所以它们是/page-123 或/page-2 或/page-25 等

有没有办法停止谷歌索引任何以/page-xxx 开头的页面,使用 robots.txt

会这样吗?
Disallow: /page-*

谢谢

最佳答案

首先,一行写着 Disallow: /post-*不会做任何事情来阻止抓取“/page-xxx”形式的页面。您的意思是将“页面”放在“禁止”行中,而不是“发布”吗?

Disallow 从本质上说,“禁止以该文本开头的 url”。因此,您的示例行将禁止任何以“/post-”开头的网址。 (也就是说,文件位于根目录中,其名称以“post-”开头。)在这种情况下,星号是多余的,正如它所暗示的那样。

您的问题不清楚页面在哪里。如果它们都在根目录中,那么一个简单的 Disallow: /page-将工作。如果它们分散在许多不同地方的目录中,那么事情就有点困难了。

正如@user728345 指出的那样,处理此问题的最简单方法(从 robots.txt 的角度来看)是将所有您不想抓取的页面收集到一个目录中,并禁止对其进行访问。但我理解如果你不能移动所有这些页面。

对于 Googlebot 以及其他支持相同通配符语义的机器人(数量惊人,包括我的),以下应该有效:
Disallow: /*page-
这将匹配任何地方包含“page-”的任何内容。但是,这也会阻止诸如“/test/thispage-123.html”之类的内容。如果您想防止这种情况发生,那么我认为(我不确定,因为我还没有尝试过)这会起作用:
Disallow: */page-

关于robots.txt - 阻止包含特定词的 URLS 的谷歌机器人,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6859399/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com