gpt4 book ai didi

c - 在 C 中解析 HTML 文件 - libxml2 的替代方案

转载 作者:太空宇宙 更新时间:2023-11-04 03:58:18 27 4
gpt4 key购买 nike

<分区>

所以我想在 C 中创建一个网络爬虫。几乎没有任何库支持这个。
我可以使用 libtidy 将 HTML 转换为 XHTML,并使用 libcurl(它有不错的文档)获取 HTML 文件。

我的问题是解析 HTML 文件并获取其中存在的所有链接。我知道 libxml2在那里,但它非常难以理解,因为它的 API 没有好的文档。

我应该用 C 语言还是使用其他语言(如 Java)?或者有什么好的替代品可以替代 libxml2 吗?

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com