gpt4 book ai didi

pdf-scraping - 使用 camelot 从 PDF 中提取表格数据时,不会从 PDF 中提取标题

转载 作者:行者123 更新时间:2023-12-05 04:03:52 25 4
gpt4 key购买 nike

我正在使用 camelot 提取表格数据,但是标题没有作为 PDF 的一部分被提取。

附加目标下面的PDF链接和目标表在第3页和第4页,需要提取。

https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing

其中一个表格如下所示 enter image description here

我看过 camelot 文档,我认为问题与“检测短线”

有关

https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines

但是无法通过调整line_size_scaling 参数来解决问题。

请协助。

最佳答案

我使用 $ camelot -p 3 lattice -plot contour 007.pdf 在第 3 页绘制了检测到的表格边界。看起来 Camelot 没有在检测到的表格边界中包含标题行 [bug 1](见下图)。然后我尝试将 table_areas 关键字参数与 flavor='lattice' 一起使用,但它没有包含指定表边界中的行 [bug 2]。我在问题跟踪器上添加了这些 #200#201 .

您仍然可以使用 table_areas 关键字参数和 flavor='stream' 来获取表格。

使用 CLI:$ camelot -p 3 --output 007.csv --format csv stream -T 60,770,520,400 007.pdf

使用 API:tables = camelot.read_pdf('007.pdf', pages='3', flavor='stream', table_areas=['60,770,520,400'])

您可以使用此处描述的步骤找到表格边界坐标:https://camelot-py.readthedocs.io/en/master/user/advanced.html#visual-debugging

希望对您有所帮助!

enter image description here

关于pdf-scraping - 使用 camelot 从 PDF 中提取表格数据时,不会从 PDF 中提取标题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53203779/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com