gpt4 book ai didi

robots.txt - 如何禁止所有动态网址 robots.txt

转载 作者:行者123 更新时间:2023-12-04 10:32:35 31 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

9年前关闭。




Improve this question




如何禁止 robots.txt 中的所有动态网址

Disallow: /?q=admin/
Disallow: /?q=aggregator/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/

我想禁止所有以/?q= 开头的内容

最佳答案

您问题的答案是使用

Disallow: /?q=

我能找到的关于 robots.txt 的最佳(当前可访问)源位于 Wikipedia . (据称确定的来源是 http://www.robotstxt.org ,但网站目前已关闭。)

根据维基百科页面,该标准仅定义了两个字段; UserAgent: 和 Disallow:。 Disallow: 字段不允许显式通配符,但每个“不允许”的路径实际上是一个路径前缀;即匹配任何以指定值开头的路径。

Allow: 字段是非标准扩展,Disallow 中对显式通配符的任何支持都将是非标准扩展。如果您使用这些,您就没有权利期望(合法的)网络爬虫会理解它们。

这不是爬虫是“聪明”还是“愚蠢”的问题:这完全是关于标准合规性和互操作性。例如,任何在“Disallow:”中使用显式通配符执行“智能”操作的网络爬虫对于(假设的)robots.txt 文件都是不利的,因为这些字符旨在按字面意思解释。

关于robots.txt - 如何禁止所有动态网址 robots.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1495363/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com