gpt4 book ai didi

c# - 从 html 中删除除文本以外的所有内容

转载 作者:太空狗 更新时间:2023-10-30 01:12:03 26 4
gpt4 key购买 nike

我们的 CMS 允许用户使用 html 编辑器输入文本,因此在将文本读入网页时,我可以这样输入文本:

&#xD;&#xA;      <p>&#xD;&#xA;      <strong>text text. more 
text</strong>&#xD;&#xA; <a href="http://blabla>blabla</a> even more text...

我怎样才能删除除文本之外的所有内容,包括 , 和 .和相似的角色?

最佳答案

假设这是 html(不是 xhtml),我会使用 HTML Agility Pack解析它,并访问 InnerText :

static void Main()
{
HtmlDocument doc = new HtmlDocument();
doc.LoadHtml(@"&#xD;&#xA; <p>&#xD;&#xA; <strong>text text. more text</strong>&#xD;&#xA; <a href=""http://blabla>blabla</a> even more text...");
string s = doc.DocumentNode.InnerText;
// s is: &#xD;&#xA; &#xD;&#xA; text text. more text&#xD;&#xA;
}

关于c# - 从 html 中删除除文本以外的所有内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1393982/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com