gpt4 book ai didi

Python Scrapy - 从多个网站 URL 中抓取数据

转载 作者:太空宇宙 更新时间:2023-11-04 01:12:22 25 4
gpt4 key购买 nike

对于我的一个网络项目,我需要从不同的网络源中抓取数据。为简单起见,我将通过示例进行解释。

假设我想抓取有关其制造商网站上列出的手机的数据。

http://www.somebrand1.com/mobiles/.. http://www.somebrand3.com/phones/

我有大量 URL。每个品牌的页面都会有自己的浏览器 HTML 呈现方式。

我如何编写规范化脚本来遍历那些列出网页 URL 的 HTML 并抓取数据,而不管它们的格式如何?

否则我是否需要编写脚本来从每个模式中抓取数据?

最佳答案

这称为广泛抓取,一般来说,这不是一件容易实现的事情,因为网站使用不同的性质、表示和加载机制。

一般的想法是拥有一个通用蜘蛛和某种特定于站点的配置,您可以在项目字段和用于从页面检索字段值的 xpath 表达式或 CSS 选择器之间建立映射。在现实生活中,事情并没有看起来那么简单,有些字段需要进行后处理,有些字段需要在发送单独的请求后提取等。换句话说,很难保留同时通用且可靠

通用蜘蛛应该接收目标站点 as a parameter ,读取特定于站点的配置并根据它抓取站点。

另见:

关于Python Scrapy - 从多个网站 URL 中抓取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26987945/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com