gpt4 book ai didi

javascript - 使用 phantomjs 或 Node 从网站上通过网络套接字抓取流式传输的数据

转载 作者:太空宇宙 更新时间:2023-11-04 02:30:13 24 4
gpt4 key购买 nike

我想从网站上抓取数据。该数据在网站上的 HTML Canvas 上呈现并不断更新。据我了解,人们无法从 Canvas 元素上刮掉数据,因为它或多或少是一个图形。但事实仍然是,这些数据正在流式传输到我的浏览器,因此使用 PhantomJS 或 NodeJS 等 headless JavaScript 引擎,我应该能够访问来自 Web 套接字的原始数据。我已经使用 PhantomJS 抓取了网站,但我无法找到一种方法来获取通过网络套接字传入的原始数据。我正在使用 PhantomJS 加载页面,它已加载,但显然该页面打开了一个新连接以连接到源服务器上的 Web 套接字并开始接收提要。我的 PhantomJS 脚本如何 Hook ?

谢谢。

最佳答案

PhantomJS 1.x 不支持 Web 套接字。 PhantomJS 2 还没有推出。

如果该网站实际上在 PhantomJS 中运行,那么可能会有一些回退,在这种情况下,您可以使用 page.onResourceReceived 注册事件并抓取一些元数据。事件监听器不公开资源数据。由于回退可能是有状态的,因此您实际上无法使用自定义 XHR 来抓取它。

关于javascript - 使用 phantomjs 或 Node 从网站上通过网络套接字抓取流式传输的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27411933/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com