gpt4 book ai didi

ms-word - 如何使用Apache POI提取word文档的格式信息?

转载 作者:行者123 更新时间:2023-12-04 06:30:39 25 4
gpt4 key购买 nike

我正在使用 Apache POI 从 MS Word 文件中提取格式信息。

我想提取诸如段落是否有项目符号、背景颜色、前景色、对齐方式等信息。

没有太多可用的文档或教程。 Javadoc 也没有包含太多有用的信息。

我在哪里可以获得可以帮助我学习 Apache POI API 的教程/好的文档?

最佳答案

对于 HWPF (.doc),您可能需要的类是:

  • http://poi.apache.org/apidocs/org/apache/poi/hwpf/usermodel/ParagraphProperties.html
  • http://poi.apache.org/apidocs/org/apache/poi/hwpf/usermodel/CharacterProperties.html
  • http://poi.apache.org/apidocs/org/apache/poi/hwpf/model/StyleDescription.html

  • 根据您想要的确切属性,它可能位于段落或字符属性上。

    我能想到的使用 HWPF 阅读 Word 文档并获取文本、检查样式和格式等的最佳示例是来自 Apache Tika 的 WordExtractor:
    https://svn.apache.org/repos/asf/tika/trunk/tika-parsers/src/main/java/org/apache/tika/parser/microsoft/WordExtractor.java

    (.docx 的 XWPF 类似)

    关于ms-word - 如何使用Apache POI提取word文档的格式信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5456027/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com