gpt4 book ai didi

python - 我怎样才能从这个弹出窗口中抓取文本? [Python 和 Scrapy]

转载 作者:行者123 更新时间:2023-12-04 01:08:52 25 4
gpt4 key购买 nike

请注意 - 我经验不足,这是我的第一个“真正的”项目。

我将尽我所能解释我的问题,如果某些术语不正确,我们深表歉意。

我正在尝试抓取以下网页 - https://www.eaab.org.za/agent_agency_search?type=Agents&search_agent=+&submit_agent_search=GO

我可以抓取“名称”和“状态”,但我还需要在“完整详细信息”弹出窗口中获取一些信息。

我注意到,当点击“完整详细信息”按钮时,URL 保持不变。

下面是我的代码:

import scrapy
from FirstScrape.items import FirstscrapeItem

class FirstSpider(scrapy.Spider):
name = "spiderman"
start_urls = [

"https://www.eaab.org.za/agent_agency_search?type=Agents&search_agent=+&submit_agent_search=GO"

]

def parse(self, response):
item = FirstscrapeItem()
item['name'] = response.xpath("//tr[@class='even']/td[1]/text()").get()
item['status'] = response.xpath("//tr[@class='even']/td[2]/text()").get()
#first refers to firstname in the popup window
item['first'] = response.xpath("//div[@class='result-list default']/tbody/tr[2]/td[2]/text()").get()


return item

我从终端启动我的代码并将其导出到 .csv 文件。

不确定这是否有帮助,但这是弹出/花式框窗口:

popup window

我是否需要使用 Selenium 来点击按钮,还是我只是遗漏了什么?任何帮助将不胜感激。

我非常渴望学习更多关于 Python 和数据采集的知识。

谢谢。

最佳答案

Full Detail 中,您具有获取此 url 和发出请求所需的 href 属性。也许对你有帮助:

import scrapy
from scrapy.crawler import CrawlerProcess

class FirstSpider(scrapy.Spider):
name = "spiderman"
start_urls = [

"https://www.eaab.org.za/agent_agency_search?type=Agents&search_agent=+&submit_agent_search=GO"

]

def parse(self, response):

all_urls = [i.attrib["href"] for i in response.css(".agent-detail")]
for url in all_urls:
yield scrapy.Request(url=f"https://www.eaab.org.za{url}", callback=self.parse_data)

def parse_data(self, response):
print(response.css("td::text").extract())
print("-----------------------------------")

关于python - 我怎样才能从这个弹出窗口中抓取文本? [Python 和 Scrapy],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65457304/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com