gpt4 book ai didi

java - 是否可以使用 Apache Tika 提取表信息?

转载 作者:搜寻专家 更新时间:2023-10-31 19:47:47 25 4
gpt4 key购买 nike

我正在寻找一个用于 pdf 和 MS office 文档格式的解析器,以从文件中提取表格信息。当我看到 Apache Tika 时,正在考虑编写单独的实现。我能够从任何这些文件格式中提取全文。但我的要求是提取表格数据,其中我期望以键值格式显示 2 列。我检查了网络中可用的大部分内容以寻求解决方案,但找不到任何解决方案。对此有任何指示吗?

最佳答案

Tika 不解析表信息。事实上令人困惑的部分是它将表格标签转换为 <p>这实际上意味着我们失去了结构。直到当前版本 1.14 都是这种情况。将来可能会得到补救,但目前还没有朝这个方向努力的计划。

可以引用JIRA其中讨论了 Tika 中的这个缺点。JIRA之后,wiki也进行了更新以反射(reflect)这种不足。[免责声明:我提出了 JIRA]

现在是解决方案部分:根据我的经验,Aspose.Pdf for Java在将 pdf 转换为 html 方面做得非常出色。但它的许可。您可以通过免费试用版检查质量。 Code and example links .

关于java - 是否可以使用 Apache Tika 提取表信息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13517045/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com