gpt4 book ai didi

node.js - 如何在完全加载的情况下抓取网站页面(js、css全部加载)

转载 作者:太空宇宙 更新时间:2023-11-04 01:43:48 25 4
gpt4 key购买 nike

我想抓取一些网站页面,例如亚马逊或eBay,以获取已售商品图片路径。当我检查页面时,当页面完全加载时,图像 src 似乎被 javascript 修改了。

有一个名为 cheerio 的库。它很简单,但它没有公开一个方法来在页面完全加载后进行一些检查,并且它只返回 html。有人有这方面的经验吗?或者是否有任何库可以用来获取真实的图像路径,因为它是由javascript修改的?感谢您的帮助。

最佳答案

正如评论中提到的,puppeteer 可能是抓取动态页面的最佳方式。它是一个与 chrome/chromium 交互的 Node 库,并将像常规 chrome 实例一样加载页面。

page.evaluate 中,您可以使用 MutationObserver浏览器 api 来观察 DOM 并等待您想要的图像。

我使用 Apify 获得了很好的体验,它将为您运行 puppeteer 实例,并提供慷慨的免费套餐。

关于node.js - 如何在完全加载的情况下抓取网站页面(js、css全部加载),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52162532/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com