gpt4 book ai didi

python - 使用 scrapy python 爬取 NodeJs 和 AngularJs 站点

转载 作者:太空宇宙 更新时间:2023-11-03 22:51:14 25 4
gpt4 key购买 nike

我正在尝试使用scrapy python爬取网站,大多数网站都成功完成,但大多数网站都遇到困难,因为它们运行在Nodejs和angularjs框架或其他java框架上,scrapy爬虫无法从网站获取详细信息页。请在这里我需要您的关注。期待您尽早的帮助。

在这里您可以找到我最初用于测试基础的代码。

import scrapy
from selenium import webdriver
from scrapy.http import TextResponse

class QuotesSpider(scrapy.Spider):
name = "quotes"
start_urls = ['https://en-ae.wadi.com/home_entertainment-televisions/?ref=navigation']

def parse(self, response):
self.log('i have just visited the ' + response.url)
yield{
'product_name' : response.css('p.description.ng-binding > span::text').extract_first(),
}

提前致谢。

最佳答案

查看splash :这将允许您抓取基于 javascript 的网站。

您还可以创建自己的下载器中间件并使用 Selenium:How to write customize Downloader Middleware for selenium and Scrapy?

希望这有帮助。

关于python - 使用 scrapy python 爬取 NodeJs 和 AngularJs 站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43208512/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com