gpt4 book ai didi

c# - 在 C# 中查看生成的源代码(在 AJAX/JavaScript 之后)

转载 作者:IT王子 更新时间:2023-10-29 04:19:42 29 4
gpt4 key购买 nike

有没有一种方法可以在不打开浏览器的情况下从 C# 应用程序查看生成的网页源代码(发生所有 AJAX 调用和 JavaScript DOM 操作后的代码)?

使用 WebRequest 查看初始页面或 WebClient对象工作正常,但如果页面大量使用 JavaScript 来在页面加载时更改 DOM,则这些无法提供页面的准确图片。

我试过使用 SeleniumWatin UI 测试框架和它们完美地工作,提供生成的源代码,因为它在所有 JavaScript 操作完成后出现。不幸的是,他们通过打开一个非常慢的实际网络浏览器来做到这一点。我已经实现了一个 selenium 服务器,它将这项工作卸载到另一台机器上,但仍然存在很大的延迟。

是否有一个 .Net 库可以加载和解析页面(如浏览器)并吐出生成的代码?很明显,谷歌和雅虎并没有为他们想要抓取的每个页面打开浏览器(当然他们可能比我拥有更多的资源......)。

是否有这样的库,或者除非我愿意剖析开源浏览器的源代码,否则我运气不好吗?

解决方案

嗯,谢谢大家的帮助。我有一个比 Selenium 快 10 倍的工作解决方案。哇!

多亏了这个old article from beansoftware我能够使用 System.Windows.Forms.WebBrowser 控件下载页面并解析它,然后将生成的源代码提供给他们。即使该控件位于 Windows.Forms 中,您仍然可以从 Asp.Net 运行它(我正在做的),只需记住将 System.Window.Forms 添加到您的项目引用中即可。

代码有两点值得注意。首先,在新线程中调用 WebBrowser 控件。这是因为它必须在 single threaded apartment 上运行.

其次,GeneratedSource 变量设置在两个地方。这不是由于智能设计决定 :) 我仍在努力,完成后会更新此答案。 wb_DocumentCompleted() 被多次调用。首先是在下载初始 HTML 时,然后是在第一轮 JavaScript 完成时。不幸的是,我正在抓取的网站有 3 个不同的加载阶段。 1) 加载初始 HTML 2) 进行第一轮 JavaScript DOM 操作 3) 暂停半秒,然后进行第二轮 JS DOM 操作。

由于某些原因,第二轮不是由 wb_DocumentCompleted() 函数引起的,但它总是在 wb.ReadyState == Complete 时被捕获。那么为什么不将其从 wb_DocumentCompleted() 中删除呢?我仍然不确定为什么它没有被抓到那里,而 beadsoftware 文章建议将它放在那里。我会继续调查。我只是想发布这段代码,以便任何有兴趣的人都可以使用它。享受吧!

using System.Threading;
using System.Windows.Forms;

public class WebProcessor
{
private string GeneratedSource{ get; set; }
private string URL { get; set; }

public string GetGeneratedHTML(string url)
{
URL = url;

Thread t = new Thread(new ThreadStart(WebBrowserThread));
t.SetApartmentState(ApartmentState.STA);
t.Start();
t.Join();

return GeneratedSource;
}

private void WebBrowserThread()
{
WebBrowser wb = new WebBrowser();
wb.Navigate(URL);

wb.DocumentCompleted +=
new WebBrowserDocumentCompletedEventHandler(
wb_DocumentCompleted);

while (wb.ReadyState != WebBrowserReadyState.Complete)
Application.DoEvents();

//Added this line, because the final HTML takes a while to show up
GeneratedSource= wb.Document.Body.InnerHtml;

wb.Dispose();
}

private void wb_DocumentCompleted(object sender,
WebBrowserDocumentCompletedEventArgs e)
{
WebBrowser wb = (WebBrowser)sender;
GeneratedSource= wb.Document.Body.InnerHtml;
}
}

最佳答案

它可能正在使用浏览器的实例(在您的情况下:ie 控件)。您可以轻松地在您的应用程序中使用并打开一个页面。然后控件将加载它并处理任何 javascript。完成此操作后,您可以访问控件 dom 对象并获取“已解释”代码。

关于c# - 在 C# 中查看生成的源代码(在 AJAX/JavaScript 之后),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1307800/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com