gpt4 book ai didi

c# - 如何使用 HTML Agility Pack 获取 标签内的所有内容?

转载 作者:太空狗 更新时间:2023-10-30 01:11:14 25 4
gpt4 key购买 nike

所以我正在编写一个应用程序来进行一些屏幕抓取。我正在使用 HTML Agility Pack将整个 HTML 页面加载到名为 docHtmlDocoument 实例中。现在我想解析那个文档,寻找这个:

<table border="0" cellspacing="3">
<tr><td>First rows stuff</td></tr>
<tr>
<td>
The data I want is in here <br />
and it's seperated by these annoying <br /> 's.

No id's, classes, or even a single <p> tag. </p> Just a bunch of <br /> tags.
</td>
</tr>
</table>

所以我只需要获取第二行内的数据。我怎样才能做到这一点?我应该使用正则表达式还是其他东西?

更新:这是我加载doc

的方式
HtmlWeb hw = new HtmlWeb();
HtmlDocument doc = hw.Load(Url);

最佳答案

由于您使用的是 Html Agility Pack我已经建议使用它提供的方法来查找您想要的信息。有几种导航文档的方法,但最简洁的方法之一是使用 XPath。 .在这种情况下,您可以使用这样的东西:

HtmlDocument doc = new HtmlDocument();
doc.Load("input.html");
HtmlNode node = doc.DocumentNode
.SelectNodes("//table[@cellspacing='3']/tr[2]/td")
.Single();
string text = node.InnerText;

关于c# - 如何使用 HTML Agility Pack 获取 <td> 标签内的所有内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3027597/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com