gpt4 book ai didi

Java Html 表转纯文本

转载 作者:行者123 更新时间:2023-12-02 04:15:16 27 4
gpt4 key购买 nike

我们将收到的电子邮件保存在数据库中。然后,我们保存一个删除了所有 html 标签的版本。这样做的问题是,如果邮件包含这样的表格:

标题1 标题2

列1列2

删除标签后看起来像这样

标题1

标题2

第 1 列

第2列

是否有一种简单的方法来获取 html 表格并将其转换为纯文本,但格式仍然完好无损。至少在正确的位置换行

所以表格变成这样:标题 1 标题 2\r\n 列 1 列 2\r\n。或者类似的东西。

有什么想法吗?

最佳答案

简单的方法吗?并不真地。 HTML 表格很复杂,可以具有行跨度和列跨度,更不用说像双向文本这样的普通 HTML 属性了。 CSS 属性如 display: table-cell;还可能导致原本普通的 HTML 突然变成表格。

但是,如果您不太关心格式,只想将多列输出到同一行,则可以使用 JTidy 或 Jericho 之类的工具解析 HTML,然后输出多个 <td><th>通过在它们之间放置空格来标记,当您得到 <tr> 的结尾时元素,您可以输出 "\r\n" .

如果你真的不想解析 HTML,你可以直接替换 <td><th>用单个空格或制表符标记自己,并且 <tr>有换行符。这至少可以为您带来一些合理的结果。

关于Java Html 表转纯文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33392768/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com