gpt4 book ai didi

带有动态网站的 Ruby Open-URI

转载 作者:数据小太阳 更新时间:2023-10-29 07:34:16 26 4
gpt4 key购买 nike

我正在尝试使用 open-uri 获取网站的 html 页面。然而,问题是网站需要几秒钟的时间来加载它才能正确地拥有正确的代码。我现在拥有的是:

require 'open-uri'

html = open('http://hiddencode.me/dribbbucket/embed.html?key=MY_API_KEY&bucket=56024-Glassboard&delay=5000')
response = html.read
puts response

如果我现在运行它,我会得到:

<div id="slam-dunk">
<div id="loading">Loading..</div>
</div>

但是,网站需要在打开之前先正确加载才能获得正确的响应。任何想法如何在 ruby 中做到这一点?如果您不擅长 ruby​​,我也可以使用另一种语言的解决方案!

最佳答案

例如,我最近使用了 watir-webdriver来完成类似的任务。您将能够在 javascript 执行后查询 DOM 并提取任何您想要的内容。如果您希望它是 headless 的,在我的例子中,我使用了 headless gem。

如果您想坚持使用“open-uri”,那么您必须使用类似httpfox 的东西查看 javascript 发出的 ajax 请求。您也可以使用许多不同的工具来做到这一点。但是在这种情况下,你会在访问 url 之前启动 httpfox。等到你看到你试图抓取的信息出现,然后停止 httpfox 并检查每个请求,检查每个响应是否与你正在抓取的内容相关。一旦确定了正确的请求,您就可以将其与 open-uri 一起使用。虽然是最简单的解决方案,但不能保证此解决方案,因为 Web 应用程序在与服务器交互和操作 dom 的方式上差异很大。

关于带有动态网站的 Ruby Open-URI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16551605/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com