gpt4 book ai didi

c# - 使用 html 敏捷包从 c# 中的 html 中提取图像 url 并将它们写入 xml 文件

转载 作者:数据小太阳 更新时间:2023-10-29 01:58:09 24 4
gpt4 key购买 nike

我是 c# 的新手,我真的需要帮助解决以下问题。我希望从具有特定模式的网页中提取照片网址。例如,我希望提取所有具有以下模式 name_412s.jpg 的图像。我使用以下代码从 html 中提取图像,但我不知道如何调整它。

public void Images()
{
WebClient x = new WebClient();
string source = x.DownloadString(@"http://www.google.com");

HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
document.Load(source);

foreach(HtmlNode link in document.DocumentElement.SelectNodes("//img")
{
images[] = link["src"];
}
}

我还需要将结果写入 xml 文件中。你也可以帮我吗?

谢谢!

最佳答案

要限制查询结果,您需要在 XPath 中添加一个条件。例如,//img[contains(@src, 'name_412s.jpg')]将结果限制为仅 img具有 src 的元素包含该文件名的属性。

就将结果写出到 XML 而言,您需要创建一个新的 XML 文档,然后将匹配的元素复制到其中。由于您无法将 HtmlAgilityPack 节点直接导入到 XmlDocument 中,因此您必须手动复制所有属性。例如:

using System.Net;
using System.Xml;

// ...

public void Images()
{
WebClient x = new WebClient();
string source = x.DownloadString(@"http://www.google.com");
HtmlAgilityPack.HtmlDocument document = new HtmlAgilityPack.HtmlDocument();
document.Load(source);
XmlDocument output = new XmlDocument();
XmlElement imgElements = output.CreateElement("ImgElements");
output.AppendChild(imgElements);
foreach(HtmlNode link in document.DocumentElement.SelectNodes("//img[contains(@src, '_412s.jpg')]")
{
XmlElement img = output.CreateElement(link.Name);
foreach(HtmlAttribute a in link.Attributes)
{
img.SetAttribute(a.Name, a.Value)
}
imgElements.AppendChild(img);
}
output.Save(@"C:\test.xml");
}

关于c# - 使用 html 敏捷包从 c# 中的 html 中提取图像 url 并将它们写入 xml 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13435508/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com