web-crawler - robots.txt 中的 User-Agent 行是完全匹配还是子字符串匹配？-6ren

web-crawler - robots.txt 中的 User-Agent 行是完全匹配还是子字符串匹配？

转载作者：行者123 更新时间：2023-12-04 23:55:00

25

4

当爬虫读取 robots.txt 文件的 User-Agent 行时，它是尝试将其与自己的 User-Agent 完全匹配，还是尝试将其作为其 User-Agent 的子字符串进行匹配？

我读过的所有内容都没有明确回答这个问题。根据another StackOverflow thread这是完全匹配的。

但是，RFC draft让我相信这是一个子字符串匹配。例如，User-Agent: Google将匹配“Googlebot”和“Googlebot-News”。以下是 RFC 的相关引用:

The robot must obey the first record in /robots.txt that contains a User-Agent line whose value contains the name token of the robot as a substring.

此外，在 Googlebot's documentation 的“用户代理的优先顺序”部分中它解释了 Google 图片的用户代理“ Googlebot-Image/1.0”与 User-Agent: googlebot 匹配。 .

我将不胜感激，答案可能比我的问题更复杂。例如，Eugene Kalinin 的节点机器人模块提到拆分用户代理以获取 line 29 上的“名称 token ”。并与之匹配。如果这是真的，那么 Googlebot's User-Agent “ Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) ”将不匹配 User-Agent: Googlebot .

最佳答案

在 original robots.txt specification (from 1994) ，它说:

User-agent

[…]

The robot should be liberal in interpreting this field. A case insensitive substring match of the name without version information is recommended.

[…]

是否以及哪些机器人/解析器遵守这是另一个问题，一般无法回答。

关于web-crawler - robots.txt 中的 User-Agent 行是完全匹配还是子字符串匹配？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18026551/

25

4

0

文章推荐： android - 将 MaterialToolbar 的标题改为 center

文章推荐： puppet - puppet 中的子模块？

agent.exe是什么进程？agent.exe程序文件介绍 agent.exe会是病毒吗？
功能介绍 agent.exe程序文件是一个类似Windows更新服务(wuauclt.exe，即Windows Update)的程序，它不是Windows系统的一部分。而是第三方软件公司发布的程序
user-agent - 如何找到应用的 User-Agent，并在桌面浏览器中使用它？
我正在尝试查找 android 应用程序的用户代理。该应用程序允许应用程序内浏览，所以我认为它必须有一个用于浏览的用户代理。我怎么知道那是什么？我正在尝试使用该信息来运行该网站的桌面版本，使其看起
concurrency - Clojure: Agent calling Agent: 疑似死锁？
考虑以下代码: (let [slave-agent (agent 0) run-slave (fn [_] (println "running slave agent")) run-m
agent-based-modeling - "Multi-agent computing"简单来说
我最近遇到了“多代理计算”这个术语，但我不太明白它是什么。我读过一本关于它的书，但这并没有回答代理是什么的基本问题。是否有人有指向一些引用的指针，该引用清晰简洁，并且在没有大量废话/营销言论的情况下
java - 从当前数据库 Java-Agent 调用另一个数据库的 java-Agent
我有一个 java 代理，我可以从它调用另一个代理，通过它传递包含 NoteId 的参数，并使用该 NoteId，我能够成功地完成该文档的工作。直到这里一切都清楚了. 关于此的主要问题是，是否可以从当
SQL Agent 显示 "SQL Agent XPs Disabled"但它们不是
SQL Server 2012 SP2 CU6 v-5592 我启动 SQL 服务和 SQL 代理服务；都开始OK。然后我在 Windows 2012 Ent(不是 R2)服务器上登录 SSMS，SQ
java - 编译时 user.agent 值与运行时 user.agent 值不匹配
有一个应用程序我曾经在 Mozilla 中运行，但我决定使用 Chrome。我选择了BlahBlahBlahSafari.gwt.xml (包含 )在 Google/GWT Compile 的帮助下
javascript - Heroku 上的 Discord 机器人抛出错误 : agent ? ?= new https.Agent
这与我的第一个问题有关。我更新了所有代码。在我的 bot.js是: require('dotenv').config(); let ver = process.env.DISCORD_BOT; cli
open-policy-agent - OR 在 Open Policy Agent(联合行为)中
在 OPA 中，很清楚如何查询 condition AND condition : values := { "value1": { "a": "one" }, "value2":
user-agent - 通过 User-Agent header 检测 SmartTV 和其他电视
通过 User-Agent header 检测设备是否为 SmartTV 设备的任何常用方法/模式？可能正在搜索 TV 或其他内容？请告知还有其他值得检测的电视相关平台吗？ UPD:根据这个http
Julia Agents.jl: fail to precomplieAgents(Julia Agents.jl：未能预先完成代理)
这就是我跑步时它返回给我的东西。我试图更新包，但仍然不起作用。我也试过重新安装Julia，这个包在重新安装后只会运行一次。然后我第二次跑步的时候。它将再次失败。我试着修复它已经很长时间了。。有人能帮我
open-policy-agent - open policy agent - 如何从 REST API 中保留策略？
我是 OPA(开放策略代理)的新手，正在尝试使用 REST API/v1/policies/{id} 创建新策略。有用!但是，OPA 服务器将其保存到内存中，并且在重新启动后我的所有策略都被删除了。我
open-policy-agent - 如何使用 Open Policy Agent Gatekeeper K8sPSPCapabilities 约束模板将容器列入白名单
我想在 K8sPSPCapabilities 约束模板中将一个容器列入白名单，但我在使用 rego 语言时遇到了一些困难。我想禁止除特定容器之外的所有容器的 NET_RAW 功能。如果有人能指出我正确
linux - eval `ssh-agent` 和 exec ssh-agent bash 的替代品
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
Python RASA - 导入 "object() takes no parameters"时出现错误 "from rasa_core.agent import Agent"
导入命令: “从rasa_core.agent导入代理” 给我以下错误 ----------------------------------------------------------------
java - JMockIt 失败，出现 AgentInitializationException : Agent JAR loaded but agent failed to initialize
我正在为 Eclipse Kepler 开发一个插件。将 @RunWith(JMockit.class) 添加到我的测试类会导致以下错误: JMockit: Reinitializing un
How to use td-agent-bit to output log files as messages？(如何使用TD-AGENT-BIT将日志文件作为消息输出？)
如何使用TD-AGENT-BIT将日志文件作为消息输出，可以是逐行输出，也可以是以“hh：mm：ss”开头的行输出，然后向下游发送，而不是每次一起输出多行日志？日志：。。。我想要下面这样的消息：。。。
sql-server - SQL Server 2012 告诉我 Agent XPs 组件已关闭但 SQL Agent 正在运行
我在 SQL Server 上有一个非常奇怪的情况，我无法理解。环境:SQL Server 2012 SP3 CU3 在 2 节点 Windows 2008 R2 集群上运行在 SQL Serve
java - 代理初始化异常: Agent JAR loaded but agent failed to initialize - trying to inject JAR file
有关该主题的所有其他问题都没有解决我的问题。注入(inject)器: VirtualMachine vm = VirtualMachine.attach(pid); vm.loadAgent(new
linux - 将 ssh key 添加到 ssh-agent 失败 w/running agent，设置环境变量
[SSH]“无法打开与您的身份验证代理的连接”。错误我正在尝试将 ssh key 添加到我的 ssh 代理中。我首先确保 ssh-agent 正在运行。 exec ssh-agent bash 我确

首页

博学

6Ren·AI

商城

web-crawler - robots.txt 中的 User-Agent 行是完全匹配还是子字符串匹配？