gpt4 book ai didi

html - C: 如何提取 HTML 页面的 doctype

转载 作者:行者123 更新时间:2023-11-30 15:57:05 24 4
gpt4 key购买 nike

我需要使用 C 或 C++ 提取 HTML 页面的文档类型,该文档类型可能是 XHTML、HTML html 或 WML。我将以 HTML 文件或数组的形式提供输入。

如果 html 页面不包含 header ,则结果应该相对于页面而言,例如 html result = html 或 xhtml result = xhtml....

最佳答案

这似乎是两个不同的问题:

1) 如何简单地从 html 页面获取“doctype”声明,为此我将建议一些简单的内容,例如:

char doctype[1024];

void
get_doctype(char *html_page)
{
sscanf(html_page, "<!DOCTYPE %1024s>", doctype);
}

然后也许与已知的 doctype 字符串进行匹配以获得枚举值。

但是您还询问 2) 如何检测没有 doctype 声明的页面的类型。这更难,而且每一页可能有多个正确答案。我建议外包给像 libxml 这样的图书馆。它具有将输入流验证为某些类型文档的功能。

关于html - C: 如何提取 HTML 页面的 doctype,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10703351/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com