gpt4 book ai didi

python - 从被抓取的页面上的链接中检索信息

转载 作者:太空宇宙 更新时间:2023-11-04 04:58:10 24 4
gpt4 key购买 nike

我正在 python 3.5 上使用 scrapy 构建一个爬虫。

我正在众筹论坛中抓取项目并将数据保存在 hdf5 文件中。

抓取项目是通过读取 url 列表来完成的,该 url 列表被抓取,然后每个项目的信息保存为表格行(具有多列)。这是我脚本的顶部:

class ExperimentScraperSpider(scrapy.Spider):
name = 'project_scraper'
allowed_domains = ['projectname.com']

dt = pd.read_csv("urls.csv") #list of urls
start_urls = dt["url"].tolist()

def parse(self, response):

title = response.css('h1.title::text').extract_first() #name of project
tags = response.css('a.tag.category::text').extract() #project tags

...

不幸的是,一些项目信息被放置在子链接中(例如 .../methods)。我想将此链接中的信息与项目中的其他信息放在 hdf5 文件的同一行中。如何做到这一点?

我可以在我已经使用的解析器中构建一个解析器吗?

最佳答案

一种方法是使用 requests chaining方法。在这里,您从后续页面收集数据并在 Requestmeta 属性中传递临时数据,直到您最终生成一个完整的项目。

另一种方法是使用 scrapy-inline-requests图书馆。在这里,您可以将临时数据提取合并到您的主要解析方法中。

关于python - 从被抓取的页面上的链接中检索信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46542635/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com