gpt4 book ai didi

web-crawler - 爬虫与刮刀

转载 作者:行者123 更新时间:2023-12-03 05:54:12 25 4
gpt4 key购买 nike

有人可以在范围和功能方面区分爬虫和抓取器吗?

最佳答案

爬虫获取网页——即,给定一个起始地址(或一组起始地址)和一些条件(例如,要深入的链接数量、要忽略的文件类型),它会下载从网页链接到的任何内容。起点。

抓取工具获取已下载的页面,或者更一般意义上的格式化用于显示的数据,并(尝试)从这些页面中提取数据,以便可以(例如)将其存储在数据库中,并根据需要进行操作。

根据您使用结果的方式,抓取很可能会侵犯信息所有者的权利和/或有关网站使用的用户协议(protocol)(在某些情况下抓取也违反了后者)。许多网站都包含名为 robots.txt 的文件。在其根目录中(即具有 URL http://server/robots.txt)来指定爬虫应如何(以及是否)处理该网站 - 特别是,它可以列出(部分)URL爬虫不应尝试访问。如果需要,可以为每个爬虫(用户代理)单独指定这些。

关于web-crawler - 爬虫与刮刀,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3207418/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com