gpt4 book ai didi

web-crawler - 创建网络爬虫时的关键考虑因素是什么?

转载 作者:行者123 更新时间:2023-12-03 16:44:45 27 4
gpt4 key购买 nike

我今天刚开始考虑创建/定制一个网络爬虫,对网络爬虫/机器人礼仪知之甚少。我发现的大多数有关礼仪的文章看起来都陈旧而笨拙,因此我想从 Web 开发人员社区获得一些当前(和实用)的见解。

我想使用爬虫遍历“网络”以达到一个 super 简单的目的 - “站点 XYZ 的标记是否满足条件 ABC?”。

这给我带来了很多问题,但我认为我需要首先解决的两个主要问题是:

  • 从一开始就感觉有点“不确定”——这种事情可以接受吗?
  • 爬虫应该采取哪些具体考虑来不让人们感到不安?
  • 最佳答案

    遵守 robots.txt(不要像已经说过的那样过于激进)。

    您可能想考虑一下您的用户代理字符串 - 它们是预先了解您正在做什么以及如何与您联系的好地方。

    关于web-crawler - 创建网络爬虫时的关键考虑因素是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32366/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com