gpt4 book ai didi

python - 如何从我们正在爬取的网页上的链接网页中爬取数据

转载 作者:行者123 更新时间:2023-12-01 02:53:36 24 4
gpt4 key购买 nike

我正在抓取这个网页上的学院名称,但是,我还想抓取这些学院的院系数量,通过点击学院名称打​​开学院的具体网页即可获得这些院系的数量。

我应该在这段代码中附加什么才能得到结果。结果应采用 [(name1,faculty1), (name2,faculty2),...] 的形式

import scrapy
class QuotesSpider(scrapy.Spider):
name = "student"
start_urls = [
'http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-karnataka?sort_filter=alpha',
]

def parse(self, response):
for students in response.css('li.search-result'):
yield {
'name': students.css('div.title a::text').extract(),
}

最佳答案

import scrapy
class QuotesSpider(scrapy.Spider):
name = "student"
start_urls = [
'http://www.engineering.careers360.com/colleges/list-of-engineering-colleges-in-karnataka?sort_filter=alpha',
]

def parse(self, response):
for students in response.css('li.search-result'):
req = scrapy.Request(students.css(SELECT_URL), callback=self.parse_student)
req.meta['name'] = students.css('div.title a::text').extract()
yield req

def parse_student(self, response):
yield {
'name': response.meta.get('name')
'other data': response.css(SELECTOR)
}

应该是这样的。因此,您在请求的元数据中发送学生的姓名。这允许您在下一个请求中请求它。

如果数据在您在 parse_student 中抓取的最后一页上也可用,您可能需要考虑不在元数据中发送它,而只是从最后一页抓取它。

关于python - 如何从我们正在爬取的网页上的链接网页中爬取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44476674/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com