gpt4 book ai didi

python-3.x - 如何使用python-camelot获取表格坐标?

转载 作者:行者123 更新时间:2023-12-04 14:18:11 28 4
gpt4 key购买 nike

我正在尝试解析一些 pdf 文件以提取一些关键信息。每个 pdf 中有许多表格包含这些信息的一部分。所以我尝试使用camelot来提取表格,我得到了很好的结果,但我想提取每个表格的标题,因为我想用它的标题为每个表格做一个映射。所以我尝试使用 tables[i]._bbox 来获取每个表的坐标。然后为这些坐标添加一些边距以检测表格标题的区域(可以在表格的顶部、左侧或底部),如图所示:title of table on the left

title of the table on the top

谁能告诉我如何使用python根据表格坐标从pdf中获取包含表格标题的红色区域的坐标?

最佳答案

您可以直接创建 PDF 解析器。例如 Lattice :

parser = Lattice(**kwargs)
for p in pages:
t = parser.extract_tables(p, suppress_stdout=suppress_stdout,
layout_kwargs=layout_kwargs)
tables.extend(t)

那么您就可以访问 parser.layout它包含页面中的所有组件。这些组件都有 bbox (x0, y0, x1, y1)并且提取的表也有 bbox目的。您可以找到最接近表格的组件并提取其文本和坐标。
如果您不想更改在 Camelot 中调用表提取的方式,您可以再次解析 PDF:
from camelot import utils
layout, dim = utils.get_page_layout(file_name)

关于python-3.x - 如何使用python-camelot获取表格坐标?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58010550/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com