作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
<分区>
在应用 javascript 之前,很多页面不包含完整的 html,我需要以完全“呈现”的形式抓取数千页所述 html,但不需要 RAM 或 cpu 方面的视觉方面被采纳,
我现在暂时使用的案例,WebBrowser control .Net,缺点:渲染,完整的浏览器
考虑到 Selenium ,缺点:半完整的浏览器
最好的选择是 phantomJS,它已经停产,是否有一个现代的等价物可以简单地做到:
string s = "<html><label id="lo"></label><script>document.getElementById('lo').innerHTML = 'dog';</script></html>
";
s = Magic.Parse(s)
//s is now "<html><label id="lo">dog</label><script>document.getElementById('lo').innerHTML = 'dog';</script></html>
";
也许这是个坏例子,好例子,在像 google 和 bing 这样的页面上,他们这样做是为了减慢机器人请求,以便人们使用他们的 API
感谢任何推荐和帮助。
大约有 100 000 个 html 文件
我是一名优秀的程序员,十分优秀!