gpt4 book ai didi

c# - XML:使用 C# 搜索特定文本的元素

转载 作者:太空宇宙 更新时间:2023-11-03 22:02:29 25 4
gpt4 key购买 nike

我正在尝试获取来自不同网站的 PDF 链接列表。首先,我使用 Web 客户端类来下载页面源代码。然后我使用 sgmlReader将 HTML 转换为 XML。因此,对于一个特定的网站,我会得到一个如下所示的标签:

<p><a href="pub/1985_to_1997_Board_Action_Summary.pdf">1985 to 1997 Board Action Summary</a></p>

我需要获取所有包含“.pdf”的链接。显然并非所有网站的布局都相同,因此只需搜索 <p>标签,不够动态。我宁愿不使用 linq,但如果必须的话,我会的。提前致谢。

最佳答案

Linq 让这一切变得简单...

var hrefs = doc.Root.Descendants("a")
.Where(a => a.Attrib("href").Value.ToUpper().EndsWith(".PDF"))
.Select(a => a.Attrib("href"));

你走吧! (注意:这是凭内存做的,所以你可能需要稍微修正一下)

这将分解为 <a/>没有 href 的标签( anchor )但你肯定可以解决这个问题......

关于c# - XML:使用 C# 搜索特定文本的元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9621319/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com