gpt4 book ai didi

web-crawler - robots.txt 中的 User-Agent 行是完全匹配还是子字符串匹配?

转载 作者:行者123 更新时间:2023-12-04 23:55:00 25 4
gpt4 key购买 nike

当爬虫读取 robots.txt 文件的 User-Agent 行时,它是尝试将其与自己的 User-Agent 完全匹配,还是尝试将其作为其 User-Agent 的子字符串进行匹配?

我读过的所有内容都没有明确回答这个问题。根据another StackOverflow thread这是完全匹配的。

但是,RFC draft让我相信这是一个子字符串匹配。例如,User-Agent: Google将匹配“Googlebot”和“Googlebot-News”。以下是 RFC 的相关引用:

The robot must obey the first record in /robots.txt that contains a User-Agent line whose value contains the name token of the robot as a substring.



此外,在 Googlebot's documentation 的“用户代理的优先顺序”部分中它解释了 Google 图片的用户代理“ Googlebot-Image/1.0”与 User-Agent: googlebot 匹配。 .

我将不胜感激,答案可能比我的问题更复杂。例如,Eugene Kalinin 的节点机器人模块提到拆分用户代理以获取 line 29 上的“名称 token ”。并与之匹配。如果这是真的,那么 Googlebot's User-AgentMozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) ”将不匹配 User-Agent: Googlebot .

最佳答案

original robots.txt specification (from 1994) , 它说:

User-agent

[…]

The robot should be liberal in interpreting this field. A case insensitive substring match of the name without version information is recommended.

[…]



是否以及哪些机器人/解析器遵守这是另一个问题,一般无法回答。

关于web-crawler - robots.txt 中的 User-Agent 行是完全匹配还是子字符串匹配?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18026551/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com