gpt4 book ai didi

Robots.txt,如何只允许访问域root,而没有更深的?

转载 作者:行者123 更新时间:2023-12-03 23:50:08 29 4
gpt4 key购买 nike

关闭。这个问题是off-topic .它目前不接受答案。












想改善这个问题吗? Update the question所以它是 on-topic对于堆栈溢出。

9年前关闭。



Improve this question




我想允许爬虫访问我域的根目录(即 index.html 文件),但没有更深的内容(即没有子目录)。我不想在 robots.txt 文件中单独列出和拒绝每个子目录。目前我有以下内容,但我认为它阻止了所有内容,包括域根目录中的内容。

User-agent: *
Allow: /$
Disallow: /

我如何编写我的 robots.txt 来完成我想要的?

提前致谢!

最佳答案

没有什么对所有爬虫都有效。有两个选项可能对您有用。

允许通配符的机器人应该支持以下内容:

Disallow: /*/

主要的搜索引擎爬虫理解通配符,但不幸的是,大多数较小的爬虫不理解。

如果根目录中的文件相对较少,并且不经常添加新文件,则可以使用 Allow只允许访问这些文件,然后使用 Disallow: /限制其他一切。即:
User-agent: *
Allow: /index.html
Allow: /coolstuff.jpg
Allow: /morecoolstuff.html
Disallow: /

这里的顺序很重要。爬行者应该参加第一场比赛。所以如果你的第一条规则是 Disallow: / ,行为正常的爬虫不会到达以下 Allow线。

如果爬虫不支持 Allow ,然后它会看到 Disallow: /并且不抓取您网站上的任何内容。当然,前提是它忽略了 robots.txt 中它不理解的内容。

各大搜索引擎爬虫都支持 Allow ,许多较小的也这样做。这很容易实现。

关于Robots.txt,如何只允许访问域root,而没有更深的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5206602/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com