gpt4 book ai didi

c# - AngleSharp 提取格式化文本

转载 作者:行者123 更新时间:2023-12-04 12:18:28 24 4
gpt4 key购买 nike

我想知道是否可以使用 AngleSharp 从 HTMLDocument 中提取格式化文本。我正在使用以下代码来提取文本。我遇到的问题是提取的文本一起运行,每个元素之间没有中断。

var parser = new HtmlParser();
var document = parser.Parse("<script>var x = 1;</script> <h1>Some example source</h1><p>This is a paragraph element</p>");
var text = document.Body.Text();

这将返回以下文本

一些示例源这是一个段落元素

理想情况下,我希望它返回
一些示例源 这是一个段落元素
每个节点文本值之间有一些分隔。

最佳答案

我知道我参加聚会迟到了,但迟到总比没有好(我也希望其他人从这个答案中受益)。

题主的评论都对。一方面,我们有 W3C 规范和文档的来源,它告诉我们(官方)序列化中不会有任何空格,另一方面,我们有一个非常常见的案例,可以在适用时“集成”一些空格(或者甚至换行,例如,如果看到 <br> 元素)。

正在编写的库不知道您的特定用例(即,当您想插入空格时)。但是,它可以帮助您更轻松地达到您想要的状态。

从 DOM 到字符串的序列化是通过实现 IMarkupFormatter 的类的实例完成的。 . ToHtml()任何 DOM 节点的方法都接受这样一个对象来返回一个字符串。做一个

var myFormatter = new MyMarkupFormatter();
var text = document.Body.ToHtml(myFormatter);

现在问题简化为适用于我们的 MyMarkupFormatter 的实现。这个格式化程序基本上只会产生文本节点,但是,某些标签被区别对待(即,返回一些文本,如空格)。
public class MyMarkupFormatter : IMarkupFormatter
{
String IMarkupFormatter.Comment(IComment comment)
{
return String.Empty;
}

String IMarkupFormatter.Doctype(IDocumentType doctype)
{
return String.Empty;
}

String IMarkupFormatter.Processing(IProcessingInstruction processing)
{
return String.Empty;
}

String IMarkupFormatter.Text(ICharacterData text)
{
return text.Data;
}

String IMarkupFormatter.OpenTag(IElement element, Boolean selfClosing)
{
switch (element.LocalName)
{
case "p":
return "\n\n";
case "br":
return "\n";
case "span":
return " ";
}

return String.Empty;
}

String IMarkupFormatter.CloseTag(IElement element, Boolean selfClosing)
{
return String.Empty;
}

String IMarkupFormatter.Attribute(IAttr attr)
{
return String.Empty;
}
}

如果剥离所有非文本信息不是您所需要的,那么 AngleSharp 还提供 PrettyMarkupFormatter开箱即用 - 也许这已经非常接近您想要的(“更漂亮”的标记格式化程序)。

希望这可以帮助!

关于c# - AngleSharp 提取格式化文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43540559/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com