gpt4 book ai didi

linux - 如何使用c从网页剥离html标签和图像到文件

转载 作者:太空宇宙 更新时间:2023-11-04 11:33:49 25 4
gpt4 key购买 nike

我将如何使用 c 编写一个程序来剥离通过终端在 Linux 中输入的网页并删除所有 HTML 标签和图像并将剩余的内容放入文件中。

我只是对如何从终端获取网页感到困惑。

感谢您的帮助。

最佳答案

  • 你可以通过curlwgetaria2c等各种程序在终端中获取网页。使用这些程序下载网页使用编写您的 C 程序来剥离标签。
  • 如果你想用C下载网页,你可以用 .如何使用 获取示例代码下载 http://stackoverflow.com 使用以下命令。

    curl --libcurl downloadstackoverflow.c  http://stackoverflow.com

    这将生成一个包含示例代码的文件 downloadstackoverflow.c

  • 这是一个从 html 中剥离标签的简单程序。它不支持引号 " 中的标签。但您应该明白这一点。

    int main() {
    int in_tag = 0;
    char c;

    while ((c = getchar()) != EOF) {
    if (c == '<' || c == '>') {
    in_tag = (c == '<') ? 1 : 0;
    } else {
    if (!in_tag) {
    putchar(c);
    }
    }
    } }

关于linux - 如何使用c从网页剥离html标签和图像到文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9434057/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com