gpt4 book ai didi

seo - Robots.txt 被正则表达式禁止

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:48:12 24 4
gpt4 key购买 nike

在我的网站上,我有一个购物车页面,即:http://www.example.com/cart 和另一个卡通页面:http://www. example.com/cartoons。我应该如何在我的 robots.txt 文件中写入以仅忽略购物车页面?

购物车页面不接受 URL 上的结尾斜杠,所以如果我这样做:Disallow:/cart,它也会忽略 /cartoon

我不知道这是否可能,它会被蜘蛛机器人正确解析,比如 /cart$。我不想强制 Allow:/cartoon 因为可能是另一个具有相同前缀的页面。

最佳答案

original robots.txt specification , 这不可能。它既不支持 Allow 也不支持 Disallow 值中任何具有特殊含义的字符。

但是一些消费者支持额外的东西。例如,Google gives a special meaning to the $ sign ,它代表 URL 路径的结尾:

Disallow: /cart$

对于 Google,这将阻止 /cart,但不会阻止 /cartoon

不赋予此特殊含义的消费者 will interpret $ literally ,所以他们会阻止 /cart$,但不会阻止 /cart/cartoon

因此,如果使用它,您应该在 User-agent 中指定机器人。

备选

也许您对爬行没意见,但只是想阻止索引?在这种情况下,您可以使用 meta-robots(具有 noindex 值)而不是 robots.txt。支持的机器人仍会抓取 /cart 页面(并跟踪链接,除非您还使用 nofollow),但它们不会将其编入索引。

<!-- in the <head> of the /cart page -->
<meta name="robots" content="noindex" />

关于seo - Robots.txt 被正则表达式禁止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41508585/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com