gpt4 book ai didi

c# - 通过C#解析网页,XmlDocument.LoadXml

转载 作者:行者123 更新时间:2023-11-30 20:07:24 26 4
gpt4 key购买 nike

我正在尝试下载网页并解析它。我需要到达 html 文档的每个节点。所以我使用WebClient下载,效果很好。然后我使用以下代码段来解析文档:

 WebClient client = new WebClient();

Stream data = client.OpenRead("http://web.cs.hacettepe.edu.tr/~bil339/");
StreamReader reader = new StreamReader(data);
string xml = reader.ReadToEnd();

data.Close();
reader.Close();
XmlDocument xmlDoc = new XmlDocument();
xmlDoc.loadXml(xml);

在最后一行,程序等待了一段时间,然后崩溃了。它说 HTML 代码中有错误,这不是预期的,不应该在这里等。有什么建议可以解决这个问题吗?欢迎使用其他解析 HTML 代码的技术(当然是在 C# 中。)

最佳答案

使用 HTMLAgilityPack解析 HTML。格式良好的 HTML 不是 XML,因此不能被解析。例如,它缺少 <?xml version="1.0" encoding="UTF-8"?>所有 XML 文件都需要的序言。 HTML Agility Pack 更加宽容。

关于c# - 通过C#解析网页,XmlDocument.LoadXml,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8538843/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com