multithreading - 线程是否违反 robots.txt？-6ren

multithreading - 线程是否违反 robots.txt？

转载作者：行者123 更新时间：2023-12-02 04:08:50

27

4

关闭。这个问题是off-topic .它目前不接受答案。

想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。

10年前关闭。

Improve this question

我是抓取新手，最近我意识到线程可能是快速抓取网站的方法。不过，在我开始破解它之前，我认为确定这是否最终会让我受到限制可能是明智的。所以问题是，如果我重写我的程序以使用线程更快地爬行，这会违反大多数网站的 robots.txt 吗？

最佳答案

取决于:如果您的线程有自己单独的要抓取的 URL 队列，并且任何类型的队列之间没有同步，那么当两个(或更多)线程尝试为快速连续的同一站点。当然 a well designed crawler不会那样做!

非常“简单”的爬虫具有某种共享优先级队列，其中工作根据各种机器人排除协议(protocol)排队，所有线程都从该队列中提取要爬取的 URL。这种方法存在很多问题，尤其是在尝试扩展并爬取整个世界时野生网络。

更高级的爬虫执行“预算”计算 (see the BEAST budget enforcement section)，这使它们能够根据各种标准智能地安排爬取:垃圾邮件指标、robots.txt、覆盖率与新鲜度等。预算执行使多线程爬虫更容易快速爬取并有礼貌地爬行!

关于multithreading - 线程是否违反 robots.txt？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6256018/

27

4

0

文章推荐： SQL 更新 - 按顺序提交每一行

文章推荐： haskell - Lisp 能否以不可变的函数式方式轻松使用？

文章推荐： grails - 设置环境变量

文章推荐： emacs - 使用 Emacs 和 Tramp 通过网关到达远程主机

sql - 违反 - 找不到父键错误
出现以下错误: INSERT INTO GroupMembers VALUES ('Goldfrat', 'Simon Palm') * ERROR at line 1: ORA-02291: int
java - 违反 OO 指导原则
据称以下代码违反了 OO 指导原则。 public class Main { public static String NAME = "James"; public Main() {
java - 违反 EJB 规范
我创建了一个名为 EvenementBean 的 EJB 2 进行测试。然后我就把它删除了。现在每当尝试部署我的 .ear 项目时，我都会收到以下错误: WARN [verifier] EJB
java - 违反 hibernate 和完整性约束
我正在开发的一个应用程序正在使用 Oracle 和 Hibernate 作为 ORM。当我尝试插入 PartyUserObject 时，我不断收到以下错误: could not insert: [Pe
java - Sonar 违反 if 语句中未使用的方法
我已经实现了一些代码行: if(condition){ Class a = new Class(); method(a.b(), a.c()); }else{ method(null, n
c++ - 违反 noexcept 保证的编译器警告或静态分析？
这个问题在这里已经有了答案: Static analysis of noexcept "violations" in C++ (2 个答案) 关闭 4 年前。我大量使用 noexcept，不幸的是
c# - CollectionViewSource 违反 MVVM
我有一个 MVVM 应用程序，在我的几个 VM 中，我使用 CollectionViewSource.GetDefaultView(datasource) 来初始化我的 ICollectionView
cgi - “违反 suexec 政策”会阻止我的网站运行吗？
当我尝试运行我的网站时，它显示 500 internal server error : Internal Server Error The server encountered an internal
survival-analysis - 违反 PH 假设
运行生存分析，假设变量的 p 值具有统计显着性 - 假设与结果呈正相关。但是，根据 Schoenfeld 残差，违反了比例风险 (PH) 假设。在纠正 PH 违规后，以下哪种情况可能发生？ p 值可
oop - 违反 SRP、Demeter 法则等的影响
我知道以下是一个主观问题，但您的指导方针确实有助于我追求干净、可测试的代码。请考虑以下示例，我认为它违反了一系列设计原则。 public class OfferEligibilityCheckerS
design-patterns - 违反 DRY 原则一定是不好的吗？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭10 年前。 Improv
javascript - 泛美卫生组织 mqtt 违反 SOP
当我尝试将 Paho MQTT javacrript 与 Mosquito MQTT websockets 一起使用时，只要我用来服务页面的 Web 服务器和 Mosquito 位于同一服务器(同一来
java - 违反 Hibernate oracle 完整性约束
我在通过 hibernate 映射 oracle 时遇到问题我有这些类(class) Stock.java package com.mc.stock; import java.uti
java - jsp 中的非法属性(违反 Sonar )
在我的项目中，我试图解决 Sonar 违规问题，我坚持使用这个，我有以下代码不允许使用以下属性:语言谁能告诉我如何解决这个 Sonar 违规问题？我可以简单地删除这种“语言”吗属性还是我应该输
c# - 违反 PRIMARY KEY 约束
我正在尝试记录唯一标识符，所以我无法承受重复记录我的 ID 当我尝试更新名为 Clients 的 SQL Server 表时，我收到类似这样的错误。 Violation of PRIMARY KEY
java - 违反 Big-O 表示法中给定的平均时间复杂度
我正在尝试实现一个解决方案，以在给定的整数列表中找到第 k 个最大的元素，其中重复项具有 O(N*log(N)) Big-O 表示法的平均时间复杂度，其中 N 是列表中元素的数量。根据我的理解，合并
c++ - 您能否通过类类型上的结构化绑定(bind)违反 ODR
如果 tuple_size 模板是一个完整的类型，结构化绑定(bind)特性表示它会像分解一样与元组一起使用。当 std::tuple_size 在程序的某一点是给定类型的完整类型而在另一点不完整时会
android - 违反 google play 中的权限政策
我们的应用目前已从 google play 中删除，因为它具有 SMS 权限。我们已经删除了权限并上传了一个新的 apk，但项目的状态仍然是删除。我们是否必须等待他们审核，或者是否需要任何其他必要的步
c - 违反 C 中的严格别名，即使没有任何转换？
*i 和 u.i 如何在此代码中打印不同的数字，即使 i 被定义为 int *i = &u.i;?我只能假设我在这里触发了 UB，但我看不出具体情况。 ( 如果我选择“C”作为语言，ideone de
sql - 违反 - 未找到父键 02291. 00000 - “完整性约束
您好，我正在 Oracle SQL dev 中开发一个数据库，它试图从另一个表访问外键。我目前正在处理使用以下 CREATE 语句创建的 ItemOrdered 表 CREATE TABLE Item

首页

博学

6Ren·AI

商城

multithreading - 线程是否违反 robots.txt？