gpt4 book ai didi

python - 为什么我无法使用 scrapy 选择亚马逊页面中的某些元素?

转载 作者:太空宇宙 更新时间:2023-11-03 21:45:54 25 4
gpt4 key购买 nike

我正在尝试从以下页面解析亚马逊标准识别号 (ASIN)。

https://www.amazon.com/dp/B075GYWPCJ

但是,我无法从 scrapy 响应中选择包含 ASIN 的表格。如何选择表格以便解析表格中的数据?

import scrapy
from scrapy.crawler import CrawlerProcess

class AmazonSpider(scrapy.Spider):
name = 'amazon.com'
def start_requests(self):
yield scrapy.Request('https://www.amazon.com/dp/B075GYWPCJ', self.parse)
def parse(self, response):
# This works.. :)
print(response.xpath('//table[@id="HLCXComparisonTable"]'))
# This doesn't work.. :(
print(response.xpath('//table[@id="productDetails_detailBullets_sections1"]'))

process = CrawlerProcess()
process.crawl(AmazonSpider)
process.start()

最佳答案

在亚马逊上,很多东西都是动态加载的。当您打开页面时,您尝试抓取的表不会加载到 DOM。您需要以某种方式触发页面加载该内容才能抓取它。

关于python - 为什么我无法使用 scrapy 选择亚马逊页面中的某些元素?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52503112/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com