gpt4 book ai didi

html - 如何使用 C 将 HTML 解析为 .txt 格式

转载 作者:行者123 更新时间:2023-11-30 18:12:03 25 4
gpt4 key购买 nike

我需要使用 C 将 HTML 解析为 .txt 格式。

一个例子 - 它必须检测每个

1. <p>
2. <tr>
3. <ul> etc...

并将它们转换为文本(在文档中)

有人可以帮忙吗?

最佳答案

我认为,下载html的最简单方法网页c就是使用libcurl 。假设您已经设置了开发环境,请按照以下步骤操作:

  1. 访问 download page libcurl并下载其最新版本。
  2. 看看 install page 并了解如何安装该库。对于 Linux,安装非常简单,只需输入 ./configure && make && make install在终端中。
  3. 下载url2file.c libcurl 的示例。 <curl/curl.h>该文件中公开的头文件本质上提供了必要的功能来让您与 Web 服务器进行通信。
  4. 接下来,编译 url2file.c使用gcc -o url2file url2file.c -lcurl .
  5. 最后,测试url2file使用./url2file http://example.com 。结果将存储在page.out中明文文件。

注释:

  1. 您需要安装libcurl为了能够编译url2file.c文件,除非它会抛出 fatal error .
  2. 如果您已经安装了curl程序在您的计算机上,您可以使用 curl http://example.com > page.out 下载网页终端中的命令。
  3. 此外,wget允许您下载和存储网页:wget http://example.com .
  4. 此答案将网页存储为纯文本。它不执行任何特定的html标签处理。

关于html - 如何使用 C 将 HTML 解析为 .txt 格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41490972/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com