gpt4 book ai didi

c - 使用 C 从 HTML 文档中提取信息

转载 作者:太空宇宙 更新时间:2023-11-04 00:08:56 24 4
gpt4 key购买 nike

在我学习 C(纯 C,不是 C#,也不是 C++。我有我的理由。)的过程中,我发现需要从 HTML 文档中提取一些信息,从 URL 中获取。即,我希望位于页面上某个无序列表中的链接的所有 href 属性都位于一个字符串数组中。这些 URL 指向我要下载并存储在 zip 文件中的图像。

现在,我问了一些我认识的擅长 C 的人,他们要么以“C 是错误的工具”来告诉我,要么向我指出 libXML,它显然以其稀缺的文档而闻名。我也看过 libsoup 和 libtidy,但我似乎无法将它们拼接在一起。

我应该选择什么方法/库?有谁知道我可以查看的一些示例代码?

编辑:看到一半的评论告诉我使用 C 以外的东西,我要补充一点,我不是在寻找“适合这项工作的工具”。如果我只是想尽快完成它,我可能会使用 Ruby,因为我对它很满意。这是我学习 C 的一部分,因此,我正在寻找纯 C 解决方案。

最佳答案

既然你正在寻求学习 C,那么我会使用标准库和。

http://www.cplusplus.com/reference/clibrary/cstdio/http://www.cplusplus.com/reference/clibrary/cstring/

最简单的方法是使用其他方式获取页面,将其写入本地文件,然后将文件名传递到您的程序中。将输出打印到 STDOUT。

关于c - 使用 C 从 HTML 文档中提取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11085253/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com