gpt4 book ai didi

c++ - 哪个布局引擎用于查找网页上 html 元素的坐标?

转载 作者:塔克拉玛干 更新时间:2023-11-03 07:36:50 24 4
gpt4 key购买 nike

我正在做一些网络数据分类任务,并且在考虑是否可以在不考虑任何 css 或 javascript 的情况下获得 html 元素在网络浏览器上出现的坐标网页中提到的。

我的编程语言是 c++,需要几百万页的结果,所以速度必须很快。我知道有一个 Microsoft COM 组件可以在 Web 浏览器控件中呈现页面,然后可以查询不同 html 标记的位置。但这不适合我的情况,因为它首先呈现整个页面,这会占用大量时间。

据我所知,有一些开源布局引擎 WebKit、Gecko 可能可以用于此目的。但这是一段巨大的代码,我需要有人指导我到正确的类或正确的模块来研究或某人以前做过的任何以前/类似的工作。另外,如果我想自定义现有代码以用于多线程以使其更快,请告诉我你们认为什么是好的选择。

谢谢

最佳答案

通常,您会发现不同的页面呈现引擎确实以自己的方式呈现 html,并且结果会有所不同。

问题是,如果您坚持使用任何具体的浏览器引擎,您要做的是以某种方式将该引擎引入您的项目并使用引擎的界面来检索这些坐标。不过,这是一项艰巨的任务,仅仅是因为您必须阅读大量文档并浏览数千个文件。

我认为正确的方法是在某个地方发布此任务,该位置特定于您选择的页面呈现引擎。 (壁虎/webkit/...)

如果您更喜欢坚持特定于 MS 的内容,我猜它会更容易,但无法帮助您处理您想要查看的类名或代码块等内容。在这种情况下,可能其他人可以指导您。

关于c++ - 哪个布局引擎用于查找网页上 html 元素的坐标?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2705837/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com