gpt4 book ai didi

javascript - 缩放 Phantom/CasperJS 抓取?

转载 作者:行者123 更新时间:2023-11-30 05:41:32 25 4
gpt4 key购买 nike

我有一个 Ruby 应用程序,它使用 CasperJS 来抓取网站、返回结果并对数据进行一些操作。

现在,我的 CasperJS 脚本消耗了大约 200Mb,这意味着如果我想并行启动 5 个实例,请计算一下 :)。我正在考虑将它部署到 Heroku,但我确信我会达到 worker 的内存限制。

我可以做些什么来减少内存使用或使其可扩展?我希望能够并行解析 10 个以上的页面。我是否应该考虑另一种选择(我真的需要一个 headless 浏览器,因为我想查看页面中所有元素的位置,而不仅仅是抓取 HTML)?

最佳答案

我遇到过同样的情况,尤其是在像 Pinterest 这样的照片密集型网站上。在那种情况下,我只能在一个 session 中运行大约 30 分钟,然后 PhantomJS 才会在内存使用量为 1GB 时崩溃。

Casper 有不下载图像的选项,因此它可以使用 phantomJS 节省内存。我假设由于页面缓存而正在建立内存。我很想听听其他人对此事的看法。

我认为没有太多选择。 PhantomJS 有它的限制仍然比 Selenium 快得多。

关于javascript - 缩放 Phantom/CasperJS 抓取?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20574611/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com