作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
关闭。这个问题是off-topic .它目前不接受答案。
想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。
9年前关闭。
Improve this question
我想允许爬虫访问我域的根目录(即 index.html 文件),但没有更深的内容(即没有子目录)。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容,但我认为它阻止了所有内容,包括域根目录中的内容。
User-agent: *
Allow: /$
Disallow: /
最佳答案
没有什么对所有爬虫都有效。有两个选项可能对您有用。
允许通配符的机器人应该支持以下内容:
Disallow: /*/
Allow
只允许访问这些文件,然后使用
Disallow: /
限制其他一切。即:
User-agent: *
Allow: /index.html
Allow: /coolstuff.jpg
Allow: /morecoolstuff.html
Disallow: /
Disallow: /
,行为正常的爬虫不会到达以下
Allow
线。
Allow
,然后它会看到
Disallow: /
并且不抓取您网站上的任何内容。当然,前提是它忽略了 robots.txt 中它不理解的内容。
Allow
,许多较小的也这样做。这很容易实现。
关于Robots.txt,如何只允许访问域root,而没有更深的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5206602/
我是一名优秀的程序员,十分优秀!