gpt4 book ai didi

dynamic - 如何读取/解析动态生成的网页内容?

转载 作者:行者123 更新时间:2023-12-05 05:29:13 25 4
gpt4 key购买 nike

我需要找到一种方法来编写一个程序(使用任何语言),该程序将连接到一个网站并从该网站读取动态生成的数据。

请注意,它是动态生成的——仅获取源 html 是不够的,因为我感兴趣的数据是通过引用后端代码的 javascript 生成的。所以当我查看网页源时,我看不到数据。 (例如,去谷歌搜索。检查搜索结果页面上的源代码。浏览器显示的数据很少反射(reflect)在源代码中——大部分是动态生成的。我需要一些方法访问此数据。)

最佳答案

选择包含 HTML 渲染器的语言和环境(例如 .NET 和 WebBrowser 控件)。使用 HTML 呈现器获取 URL 并在内存中生成 HTML DOM(确保启用脚本)。在渲染器完成工作后读取 HTML DOM 的内容。

示例(您需要在 System.Windows.Form 派生类中执行此操作):

WebBrowser browser = new WebBrowser();
browser.Navigate("http://www.google.com");
HtmlDocument document = browser.Document;
// extract what you want from the document

关于dynamic - 如何读取/解析动态生成的网页内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1600397/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com