- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
有没有一种方法可以在不打开浏览器的情况下从 C# 应用程序查看生成的网页源代码(发生所有 AJAX 调用和 JavaScript DOM 操作后的代码)?
使用 WebRequest 查看初始页面或 WebClient对象工作正常,但如果页面大量使用 JavaScript 来在页面加载时更改 DOM,则这些无法提供页面的准确图片。
我试过使用 Selenium和 Watin UI 测试框架和它们完美地工作,提供生成的源代码,因为它在所有 JavaScript 操作完成后出现。不幸的是,他们通过打开一个非常慢的实际网络浏览器来做到这一点。我已经实现了一个 selenium 服务器,它将这项工作卸载到另一台机器上,但仍然存在很大的延迟。
是否有一个 .Net 库可以加载和解析页面(如浏览器)并吐出生成的代码?很明显,谷歌和雅虎并没有为他们想要抓取的每个页面打开浏览器(当然他们可能比我拥有更多的资源......)。
是否有这样的库,或者除非我愿意剖析开源浏览器的源代码,否则我运气不好吗?
解决方案
嗯,谢谢大家的帮助。我有一个比 Selenium 快 10 倍的工作解决方案。哇!
多亏了这个old article from beansoftware我能够使用 System.Windows.Forms.WebBrowser 控件下载页面并解析它,然后将生成的源代码提供给他们。即使该控件位于 Windows.Forms 中,您仍然可以从 Asp.Net 运行它(我正在做的),只需记住将 System.Window.Forms 添加到您的项目引用中即可。
代码有两点值得注意。首先,在新线程中调用 WebBrowser 控件。这是因为它必须在 single threaded apartment 上运行.
其次,GeneratedSource 变量设置在两个地方。这不是由于智能设计决定 :) 我仍在努力,完成后会更新此答案。 wb_DocumentCompleted() 被多次调用。首先是在下载初始 HTML 时,然后是在第一轮 JavaScript 完成时。不幸的是,我正在抓取的网站有 3 个不同的加载阶段。 1) 加载初始 HTML 2) 进行第一轮 JavaScript DOM 操作 3) 暂停半秒,然后进行第二轮 JS DOM 操作。
由于某些原因,第二轮不是由 wb_DocumentCompleted() 函数引起的,但它总是在 wb.ReadyState == Complete 时被捕获。那么为什么不将其从 wb_DocumentCompleted() 中删除呢?我仍然不确定为什么它没有被抓到那里,而 beadsoftware 文章建议将它放在那里。我会继续调查。我只是想发布这段代码,以便任何有兴趣的人都可以使用它。享受吧!
using System.Threading;
using System.Windows.Forms;
public class WebProcessor
{
private string GeneratedSource{ get; set; }
private string URL { get; set; }
public string GetGeneratedHTML(string url)
{
URL = url;
Thread t = new Thread(new ThreadStart(WebBrowserThread));
t.SetApartmentState(ApartmentState.STA);
t.Start();
t.Join();
return GeneratedSource;
}
private void WebBrowserThread()
{
WebBrowser wb = new WebBrowser();
wb.Navigate(URL);
wb.DocumentCompleted +=
new WebBrowserDocumentCompletedEventHandler(
wb_DocumentCompleted);
while (wb.ReadyState != WebBrowserReadyState.Complete)
Application.DoEvents();
//Added this line, because the final HTML takes a while to show up
GeneratedSource= wb.Document.Body.InnerHtml;
wb.Dispose();
}
private void wb_DocumentCompleted(object sender,
WebBrowserDocumentCompletedEventArgs e)
{
WebBrowser wb = (WebBrowser)sender;
GeneratedSource= wb.Document.Body.InnerHtml;
}
}
最佳答案
它可能正在使用浏览器的实例(在您的情况下:ie 控件)。您可以轻松地在您的应用程序中使用并打开一个页面。然后控件将加载它并处理任何 javascript。完成此操作后,您可以访问控件 dom 对象并获取“已解释”代码。
关于c# - 在 C# 中查看生成的源代码(在 AJAX/JavaScript 之后),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1307800/
我有一个用 Swift 编写的自定义转换,当呈现的 View 从侧面进入时,被关闭的 View 消失。 现在我想要同样的效果,但我希望呈现的 View 从顶部进入,而被取消的 View 从底部出来。
该方法的预期目的是什么 findBinding(View view) ? 我一直在使用数据绑定(bind)库测试版。 目前还没有针对各个类的官方引用文档,所以我一直在查看源代码以了解我们可以访问哪些方
我试图在遍历 &str 时查看当前位置前面的字符。 let myStr = "12345"; let mut iter = myStr.chars().peekable(); for c in ite
每当我在 Azure 中创建新的 Azure 函数应用时,我都会选择一个存储帐户供其使用。 创建应用后,如何查看/更改存储帐户? 我尝试在门户中浏览,但无法看到可以在哪里配置它。 最佳答案 创建后,您
我想查看读取 QFile 的 QTextStream 的下一个字符,以创建一个高效的标记器。 但是,我没有找到任何令人满意的解决方案。 QFile f("test.txt"); f.open(QIOD
当我旋转手机时, ListView 中选定的项目将被取消选择。这是我的适配器。我只想更改所选项目的颜色(仅是单个选择),当我旋转手机时,我想查看我选择的内容。现在,当我旋转手机时,我看不到所选项目。
我开始编写代码来检查函数的返回值,但我不确定在捕获到一些错误后如何继续。 例如,在 fgets 中: while( fgets( rta, 3, stdin ) == NULL ) {
是否可以获取或创建一个 optional 轮,它以假想的圆圈滚动而不是直接向下(垂直)滚动? 直线链接但想要弯曲 例如就像控件 here ,但车轮是弯曲的? 最佳答案 有没有可能你想要的是一个轮播?
当我尝试为其创建 View 时出现错误:“ View 的 SELECT 在 FROM 子句中包含一个子查询”,但它在普通查询中工作正常。我认为它与我的 WHERE 子句有关,但我不明白为什么或如何修复
在一个类中,我有以下代码: /// [System.Xml.Serialization.XmlElementAttribute("Errors", typeof(ErrorsType))] [Sys
我想显示来自 catch block 的错误(日志)消息。如何在单个屏幕上显示所有消息(堆栈),以便用户了解? 谢谢... 最佳答案 使用 Toast 怎么样? 示例: Toast.makeText(
我有以下屏幕(图像),当按下按钮时显示一个侧面菜单,菜单出现,另外我有一个 uitableview 来显示其他东西 我的问题是,当侧边菜单出现时,uitableview 被调整了大小。 如何保持 ui
invariant violation element type is invalid: expected a string (for built-in components) or a class/
我是新手,正在尝试学习 fork() 和系统调用的功能,现在我正在使用 execvp() 来尝试制作 bash,但我遇到的问题是,当我编写正确的命令时,程序结束,我想循环使用我的 bash,直到有人在
我正在尝试使用 Laravel request validation method 创建一个登录页面 和凭据验证 -> 如果用户未通过身份验证,它将返回错误“密码错误....” 我在两种不同的情况下看
我有一个 .jar 文件,我需要查看 jar 文件的内容。 是否有任何解码器可用于解码 jar 文件。 我也有 solaris 环境,我需要知道什么是 最佳答案 使用jar命令行,即 jar tf j
Git 提供了几种方式可以帮你快速查看提交中哪些文件被改变。 如果你每天使用 Git,应该会提交不少改动。如果你每天和其他人在一个项目中使用 Git,假设 每个人 每天的提
问题 tensor详细数值 不能直接print打印: ? 1
一,uptime 可以查看系统的运行时间 show global status like 'uptime'; 二,利用linux命令查看 Linux 下有个 uptime 可以查看系统的运行时
在所有主流的浏览器中,均能够查看原始的 XML 文件 不要指望 XML 文件会直接显示为 HTML 页面 查看 XML 文件 <?xml version="1.0" e
我是一名优秀的程序员,十分优秀!