gpt4 book ai didi

asp.net - 从一段文本中去除任何超链接和文本

转载 作者:行者123 更新时间:2023-12-02 03:45:45 25 4
gpt4 key购买 nike

我想知道如何从某些文本中删除任何超链接 标签 - 包括文本/图像在内的所有链接都在结束 标签之前。

例如

<a href="http://stackoverflow.com">Click here</a>        
<a href="http://stackoverflow.com"><img src="http://stackoverflow.com" alt = "blah"></a>

即。全部删除。

有什么办法吗?

谢谢

最佳答案

强制性“不要使用正则表达式解析 html”警告:RegEx match open tags except XHTML self-contained tags

我建议要么转换成 XHTML 并使用 xPath,要么看一下 HTMLAgilityPack去做这个。我过去使用过这两种方法来解析/修改 html,它们比使用正则表达式灵活/健壮得多。

这是一个可以帮助您开始使用 HtmlAgilityPack 的示例:

 HtmlDocument doc = new HtmlDocument();
doc.Load("file.htm");
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href]")
{
// Do stuff!
}
doc.Save("file.htm");

关于asp.net - 从一段文本中去除任何超链接和文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17282222/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com