gpt4 book ai didi

jquery - 屏幕抓取完全呈现的页面

转载 作者:太空宇宙 更新时间:2023-11-03 17:40:32 25 4
gpt4 key购买 nike

我正在尝试找出如何捕获完全呈现的页面并对其进行操作。我一直在使用 Nokogiri、Hpricot、Mechanize 等,但没有一个可以在事后捕获其元素由 AJAX 或其他东西呈现的页面。

一个例子是 Twitter 的状态页面,这是我在这个项目中遇到的许多问题之一:

http://twitter.com/#!/nytimes/status/42341419062525952

http://twitter.com/#!/alleyinsider/status/42337897038364672

如果您查看 HTML 源代码,它主要是稍后呈现的 javascript。在 Firebug 或其他控制台中检查它,您会看到完全呈现的结果,但我不知道如何使用上述工具捕获它。我错过了什么吗?

顺便说一句:是的,我知道有一个 Twitter API。但这更多是一个理论问题,因为我在其他几个网站上不同程度地遇到过这个问题。

谢谢!

最佳答案

...none can capture a page whose elements are rendered by AJAX or something else after the fact.

没错。您查找的内容在捕获时不存在于文档中,它是浏览器处理 JavaScript 的结果插入的,它通过 AJAX 请求内容并将其插入页面。

因此,要到达您想去的地方,您需要一个 JavaScript 解释器或一个受代码控制的浏览器。

Watir项目有能力做到这一点。这就像 Mechanize 上面的下一步,除了它不是 Ruby 代码,而是一个浏览器,它被你的 Ruby 代码告知要做什么。因此,浏览器应该能够加载页面、处理 JavaScript,然后提取您要查找的内容。

variations on Watir适用于不同的浏览器,因此您可以使用 IE、Safari、Firefox 等。

关于jquery - 屏幕抓取完全呈现的页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5148132/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com