gpt4 book ai didi

c++ - 使用 c/c++ 以编程方式从 html 文件中提取表格

转载 作者:塔克拉玛干 更新时间:2023-11-03 07:58:08 26 4
gpt4 key购买 nike

我正在寻找从 html 文件中提取表格的更好的想法。现在我正在使用 tidy ( http://tidy.sourceforge.net/ ) 将 html 文件转换为 xhtml,然后我使用 rapidxml 来解析 xml。解析时我会寻找 <table> , <tr> , 和 <td>节点等创建我的表数据结构。

它工作得很好,但我想知道是否有更好的方法来完成我的任务。此外,整洁的库似乎是一个废弃的项目。

还有大家试过tidy源代码中的“实验性”补丁吗?

谢谢,基督徒

最佳答案

您可以使用 htmlparser ( https://github.com/HamedMasafi/htmlparser )这个lib可以解析、读取和修改html和css

例如,在您阅读表格的情况下


html_parser html;
html.set_text(html_text);
auto table = html.query("#table_id").at(0);
for (auto tr : table->childs()) {
for (auto td : tr->childs()) {
//now here you have a td and you are free to any modify are data read
//e.g:
auto td_tag = dynamic_cast<html_tag*>(td);
td_tag->set_attr("id", "new_id"); // change attr
auto id = td_tag->attr("id");
auto test = td_tag->innser_text();
auto html = td_tag->outter_html();
}
}

快速入门示例是 here

关于c++ - 使用 c/c++ 以编程方式从 html 文件中提取表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14791480/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com