Robots.txt，如何只允许访问域root，而没有更深的？-6ren

Robots.txt，如何只允许访问域root，而没有更深的？

转载作者：行者123 更新时间：2023-12-03 23:50:08

关闭。这个问题是off-topic .它目前不接受答案。

想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。

9年前关闭。

Improve this question

我想允许爬虫访问我域的根目录(即 index.html 文件)，但没有更深的内容(即没有子目录)。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容，但我认为它阻止了所有内容，包括域根目录中的内容。

User-agent: *
Allow: /$
Disallow: /

我如何编写我的 robots.txt 来完成我想要的？

提前致谢!

最佳答案

没有什么对所有爬虫都有效。有两个选项可能对您有用。

允许通配符的机器人应该支持以下内容:

Disallow: /*/

主要的搜索引擎爬虫理解通配符，但不幸的是，大多数较小的爬虫不理解。

如果根目录中的文件相对较少，并且不经常添加新文件，则可以使用 Allow只允许访问这些文件，然后使用 Disallow: /限制其他一切。即:

User-agent: *
Allow: /index.html
Allow: /coolstuff.jpg
Allow: /morecoolstuff.html
Disallow: /

这里的顺序很重要。爬行者应该参加第一场比赛。所以如果你的第一条规则是 Disallow: / ，行为正常的爬虫不会到达以下 Allow线。

如果爬虫不支持 Allow ，然后它会看到 Disallow: /并且不抓取您网站上的任何内容。当然，前提是它忽略了 robots.txt 中它不理解的内容。

各大搜索引擎爬虫都支持 Allow ，许多较小的也这样做。这很容易实现。

关于Robots.txt，如何只允许访问域root，而没有更深的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5206602/

文章推荐： haskell - 为什么 Haddock 文档没有出现在 Hackage 上？

文章推荐： java - JPasswordField 值和字符串不相等，但它们看起来相同

文章推荐： docker - 使用 docker-compose 时忽略容器退出

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Robots.txt，如何只允许访问域root，而没有更深的？