gpt4 book ai didi

javascript - 将 javascript 应用到 html 以获取数千个文档的最快方法

转载 作者:行者123 更新时间:2023-11-30 13:55:56 25 4
gpt4 key购买 nike

<分区>

在应用 javascript 之前,很多页面不包含完整的 html,我需要以完全“呈现”的形式抓取数千页所述 html,但不需要 RAM 或 cpu 方面的视觉方面被采纳,

我现在暂时使用的案例,WebBrowser control .Net,缺点:渲染,完整的浏览器

考虑到 Selenium ,缺点:半完整的浏览器

最好的选择是 phantomJS,它已经停产,是否有一个现代的等价物可以简单地做到:

string s = "<html><label id="lo"></label><script>document.getElementById('lo').innerHTML = 'dog';</script></html>
";

s = Magic.Parse(s)
//s is now "<html><label id="lo">dog</label><script>document.getElementById('lo').innerHTML = 'dog';</script></html>
";

也许这是个坏例子,好例子,在像 google 和 bing 这样的页面上,他们这样做是为了减慢机器人请求,以便人们使用他们的 API

感谢任何推荐和帮助。

大约有 100 000 个 html 文件

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com