gpt4 book ai didi

java - 有没有办法使用 Apache Tika 从 doc 文件中获取所有样式?

转载 作者:行者123 更新时间:2023-12-01 09:58:27 36 4
gpt4 key购买 nike

我正在使用 POI 解析 .doc 文件,当文本装饰发挥作用时,它引导我找到了 Apache Tika。我现在可以使用简单的文本装饰提取文本,例如 <i></i>但是,我希望能够处理更复杂的样式。我的文档包含不同的字体大小、下标、上标等。有没有办法通过 Tika 获取所有这些信息?如果没有,谁能给我指出一个更合适的工具来使用?

最佳答案

正如您所发现的,Tika 目前只处理 。根据文档的复杂性,您可能会考虑直接使用 POI(也许可以使用 Tika 的解析器作为示例)。您还可以在 tika 开发列表 (dev@tika.apache.org) 上询问是否有兴趣在 Tika 中添加其他格式化功能,或者在我们的 Jira site 上开票。 .

关于java - 有没有办法使用 Apache Tika 从 doc 文件中获取所有样式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36999628/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com