gpt4 book ai didi

java - Apache POI Word 清理没有样式或不必要标签的 Html

转载 作者:行者123 更新时间:2023-11-28 03:18:21 25 4
gpt4 key购买 nike

我正在尝试将 Word 文档转换为干净的 html。我正在使用 Apache POI,但它会造成困惑,就像 MS Word 自己的 html 保存方法一样。我想要的是类似 https://html-cleaner.com/ 的东西.
例如,当我尝试转换表格时,我不需要任何宽度属性或其他东西。只是一些不错的 <td><tr>标签可能带有一些 <b> .

有人知道怎么实现吗?顺便说一句,我不是被迫使用 Apache POI,如果您知道任何其他实现 Word 到干净的 html 转换的 Java API,我愿意听取您的建议。

最佳答案

将评论提升为答案....您应该看看 Apache Tika。 Apache Tika 由 Apache POI 提供支持,旨在提供干净、语义上有意义的 HTML,我认为这就是您所追求的

如果您关注Apache Tika example for parsing to XHTML ,你会做类似的事情:

public String parseToHTML() throws IOException, SAXException, TikaException {
ContentHandler handler = new ToXMLContentHandler();

AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try (InputStream stream = ContentHandlerExample.class.getResourceAsStream("test.doc")) {
parser.parse(stream, handler, metadata);
return handler.toString();
}
}

此外,对于测试,您可以只使用 runnable single-jar Tika App cli tool ,将 --xhtml 选项与您的文件一起传递,它会在命令行上返回简单干净的 XHTML

关于java - Apache POI Word 清理没有样式或不必要标签的 Html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45342596/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com