gpt4 book ai didi

pdf - 从 PDF 中提取表格数据

转载 作者:行者123 更新时间:2023-12-04 09:24:46 25 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

6年前关闭。




Improve this question




是否有任何一致的方法可以从 PDF 文件中提取表格?有什么工具吗?

到目前为止我做了什么:

  • 我试过了 pdftotext工具。它有一个选项可以转换为 HTML 布局。

  • 这有什么问题:
  • HTML 输出中不保留表格信息
  • 我期待 <table>标签,但一切都在 <p> 下标签。

  • PDF 文档中是否会有任何标记来指示表格结构?赞 <table> , <tr><td>在 HTML 中?

    如果"is",任何指向此的指针都会有所帮助。如果“否”,有关此事实的明确信息也很有帮助。

    最佳答案

    如果 PDF 文档缺少将内容标记为表格、行、单元格等(称为标签)的信息,则没有一致的方法可以从 PDF 文档中提取表格。大多数情况下,PDF 文档不包含这些标签。这些标签通常用于使 PDF 易于访问,以便例如可以大声朗读。 PDF 不需要这些标签才有效。

    关于pdf - 从 PDF 中提取表格数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23495372/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com