gpt4 book ai didi

web-crawler - 如何设置只允许网站默认页面的robot.txt

转载 作者:行者123 更新时间:2023-12-03 11:47:09 24 4
gpt4 key购买 nike

假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是其他任何页面都需要阻止,因为它对蜘蛛毫无意义。换一种说法

http://example.comhttp://example.com/应该被允许,但是
http://example.com/anythinghttp://example.com/someendpoint.aspx应该被阻止。

此外,如果我可以允许某些查询字符串传递到主页,那就太好了:
http://example.com?okparam=true

但不是
http://example.com?anythingbutokparam=true

最佳答案

因此,经过一番研究,这就是我发现的-主要搜索提供商可以接受的解决方案:googleyahoo和msn(我可以在这里找到验证器):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

诀窍是使用$标记URL的结尾。

关于web-crawler - 如何设置只允许网站默认页面的robot.txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43427/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com