gpt4 book ai didi

C# HTMLAgilityPack HTML to Text - 解析错误

转载 作者:太空狗 更新时间:2023-10-29 21:47:25 32 4
gpt4 key购买 nike

我需要使用 C# 从 HTML 文件中提取文本。我正在尝试使用 HTMLAgilityPack 但我看到一些解析错误(标签未关闭)。我正在使用这两个选项:

        htmlDoc.OptionFixNestedTags = true;
htmlDoc.OptionAutoCloseOnEnd = true;

是否有任何“修复所有”类型的选项。我不关心错误,我只想要内容或关闭。

最佳答案

也许这是解决方法,但一旦我不得不从 HTML 中提取文本,我就使用了正则表达式:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty);
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase);
result = result.Replace("\n", " ");

关于C# HTMLAgilityPack HTML to Text - 解析错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3802564/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com