gpt4 book ai didi

javascript - 使用客户端输出抓取页面的有效实践?

转载 作者:太空宇宙 更新时间:2023-11-03 17:07:08 25 4
gpt4 key购买 nike

我想要一个脚本,该脚本每小时都会抓取某个网页,并在该页面内查找某个字符串。

但是,当我进入该页面并使用“view:source”时,我在源中看不到该字符串。有人告诉我,这是因为我正在查找的字符串来自客户端上呈现的元素side (javascript),因此只有当我使用 Chrome 控制台手动检查该元素时,我才能看到它。

考虑到我想从具有 2.25GB RAM 的网络主机服务器运行该脚本,哪种实践/编程语言/环境最有效地实现我想要的目标?

有人建议我使用 Pyqt4,但我的网络主机警告我,这会耗尽我的 RAM 并损害服务器性能。我应该注意到,该脚本应该非常简单,并且每小时一次只抓取一个页面。

最佳答案

看来这个问题可以用 PhantomJS 来解决,因为它模拟真实浏览器的操作,从客户端代码中提取信息。

对于带有 Javascript 的 PhantomJS,您可以查看 testing-javascript-with-phantomjs

如何在Python中使用PhantomJS,请查看this

希望对你有帮助~

关于javascript - 使用客户端输出抓取页面的有效实践?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34479739/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com