gpt4 book ai didi

web-crawler - 好的网络爬虫指南 'Etiquette'

转载 作者:行者123 更新时间:2023-12-01 12:01:26 25 4
gpt4 key购买 nike

我正在构建一个搜索引擎(为了好玩),我突然想到我的小项目可能会因点击广告和各种问题而造成严重破坏。

那么好的网络爬虫的“礼仪”指南是什么?

想到的事情:

  1. 遵守 Robot.txt 说明
  2. 限制对同一域的同时请求数
  3. 不点击广告链接?

阻止抓取工具点击广告 - 我现在特别想这个……如何阻止我的机器人“点击”广告?如果直接转到广告中的网址,是否算作一次点击?

最佳答案

您不仅仅阅读 robots.txt 指令。您还应该看到 meta tags with noindex and nofollow .

关于广告问题,我不确定,但我想如果你只是阅读链接然后在其他时间进入页面,进入的页面将没有关于你如何获得该地址的信息,并且不能为“伪点击”向网站收费

关于web-crawler - 好的网络爬虫指南 'Etiquette',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/970116/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com