gpt4 book ai didi

c# - 在保留 P、BR、UL、OL 的同时将 HTML 转换为纯文本?

转载 作者:搜寻专家 更新时间:2023-10-31 22:33:49 25 4
gpt4 key购买 nike

在从 HTML 文本导出到 Excel 工作表的过程中,我尝试保留基本格式,例如 HTML 换行符(<br><p>)、列表(<ol><ul>)等。

示例输入:

<p>This is a test.</p>
<p>This is another<br>test.</p>

<ul>
<li>10</li>
<li>20</li>
<li>30</li>
</ul>

<p>End.</p>

示例输出:

This is a test.

This is another
test.

- 10
- 20
- 30

End.

免费实用程序 HTMLAsText来自著名的 NirSoft 人似乎做的正是我想要的,不幸的是它没有源代码:

enter image description here

即使在检查了大约之后。在 Stack Overflow 上有 20 个类似的问题并在 Google 上浏览了几个小时,我能找到的最接近的是 this Code Project article .

因此我的问题是:

有人知道可以在保留基本格式的同时将 HTML 转换为纯文本的类/库吗?

更新 2013-05-10

我最终得到了一个函数,see the full code over at Pastebin .

最佳答案

你能不能通过替换来自己做这个:

<br /> with Environment.NewLine
</p> with Environment.NewLine + Environment.NewLine
<li> with " - ".

然后用正则表达式去除其余的 HTML?它似乎可以实现您想要的示例输出。当然,有人可能有更优雅的解决方案。 =)

关于c# - 在保留 P、BR、UL、OL 的同时将 HTML 转换为纯文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8419517/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com