gpt4 book ai didi

c# - 如何通过 REGEX 从字符串中删除 HTML 标签?

转载 作者:太空宇宙 更新时间:2023-11-03 23:44:37 26 4
gpt4 key购买 nike

我正在从 Mysql 获取数据,但问题是“HTML 标签,即

&lt;p&gt;LARGE&lt;/p&gt;&lt;p&gt;Lamb;<br>;li;ul;&nbsp;

我的数据也被提取了,我只需要上面一行的“LARGE”和“Lamb”。如何从字符串中分离/删除 HTML 标签?

最佳答案

我假设 HTML 是完整的,可能如下所示:

<ul><li><p>LARGE</p><p>Lamb<br></li></ul>&nbsp;

在这种情况下,我会使用 HtmlAgilityPack 来获取内容,而不必求助于正则表达式。

var html = "<ul><li><p>LARGE</p><p>Lamb</p><br></li></ul>&nbsp;";
var hap = new HtmlDocument();
hap.LoadHtml(html);

string text = HtmlEntity.DeEntitize(hap.DocumentNode.InnerText);
// text is now "LARGELamb "

string[] lines = hap.DocumentNode.SelectNodes("//text()")
.Select(h => HtmlEntity.DeEntitize(h.InnerText)).ToArray();
// lines is { "LARGE", "Lamb", " " }

关于c# - 如何通过 REGEX 从字符串中删除 HTML 标签?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27909932/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com