gpt4 book ai didi

ruby - 使用 Nokogiri/Open URI 获取动态生成的 HTML

转载 作者:数据小太阳 更新时间:2023-10-29 07:17:01 27 4
gpt4 key购买 nike

我正在尝试通过在 Chrome 中查看网站的 HTML 并使用 Nokogiri 抓取数据来抓取网站。问题是一些标签是动态生成的,并且在使用 open-uri 时它们不会出现在 open(url) 请求中。有没有办法“强制”站点动态生成其内容以供 open uri 之类的工具读取?

最佳答案

如果通过 open-uri 读取它没有产生您需要的内容,那么客户端很可能正在使用 Javascript 生成内容。

这可能是个好消息 - 通过检查页面发出的 AJAX 请求,您可能会找到您要查找的内容的 JSON 提要,然后您可以直接请求和解析它。这将使您无需深入挖掘 HTML 即可获取数据 - 非常方便!

如果由于某种原因这不起作用,您将需要使用某种浏览器打开页面,让它执行其客户端 Javascript,然后将生成的 DOM 转储为 HTML。类似于 PhantomJS是此类工作的绝佳选择。

关于ruby - 使用 Nokogiri/Open URI 获取动态生成的 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17509672/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com