gpt4 book ai didi

c# - 如何从 html 源中提取页面上可见的文本?

转载 作者:太空狗 更新时间:2023-10-29 15:02:10 25 4
gpt4 key购买 nike

我试过 HtmlAgilityPack 和下面的代码,但它没有从 html 列表中捕获文本:

HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(htmlStr);
HtmlNode node = doc.DocumentNode;
return node.InnerText;

这是失败的代码:

<as html>
<p>This line is picked up <b>correctly</b>. List items hasn't...</p>
<p><ul>
<li>List Item 1</li>
<li>List Item 2</li>
<li>List Item 3</li>
<li>List Item 4</li>
</ul></p>
</as html>

最佳答案

因为您需要遍历树并以某种方式连接所有节点的 InnerText

关于c# - 如何从 html 源中提取页面上可见的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9153877/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com