gpt4 book ai didi

c# - 如何将 HTML 读取为 XML?

转载 作者:技术小花猫 更新时间:2023-10-29 12:46:02 27 4
gpt4 key购买 nike

我想从从互联网下载的 html 页面中提取几个链接,我认为使用 linq to XML 对我的情况来说是一个很好的解决方案。
我的问题是我无法从 HTML 创建 XmlDocument,使用 Load(string url) 不起作用,所以我使用以下方法将 html 下载到字符串:

public static string readHTML(string url)
{
HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);
HttpWebResponse res = (HttpWebResponse)req.GetResponse();
StreamReader sr = new StreamReader(res.GetResponseStream());

string html = sr.ReadToEnd();
sr.Close();
return html;
}

当我尝试使用 LoadXml(string xml) 加载该字符串时出现异常

'--' is an unexpected token. The expected token is '>'

我应该采取什么方式将 html 文件读取为可解析的 XML

最佳答案

HTML 与 XML 完全不同(除非 HTML 实际上恰好在 XML 模式下符合 XHTML 或 HTML5)。最好的方法是使用 HTML parser阅读 HTML。之后,您可以将其转换为 Linq to XML,或直接对其进行处理。

关于c# - 如何将 HTML 读取为 XML?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5472162/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com