gpt4 book ai didi

python-3.x - Python Camelot 无边框表格提取问题

转载 作者:行者123 更新时间:2023-12-01 05:26:48 27 4
gpt4 key购买 nike

我正在努力提取一些无边框表格,如下图所示,它们来自 pdf 文件。我已经安装了 python-camelot,如图 here并且仅适用于带边框的表。请查看以下详细信息:

平台 - Linux-4.5.5-300.fc24.x86_64-x86_64-with-fedora-24-Twenty_Four

sys - Python 3.6.1(默认,2017 年 5 月 15 日,11:42:04)[GCC 6.3.1 20161221 (Red Hat 6.3.1-1)]

numpy - NumPy 1.15.4

cv2 - OpenCV 3.4.3

Camelot - Camelot 0.3.2 enter image description here

最佳答案

为了改善检测区域,您可以增加 edge_tol(默认值:50)值以抵消文本垂直放置相对较远的影响。较大的 edge_tol 将导致检测到更长的文本边缘,从而改进对表格区域的猜测。让我们使用 500 的值。

>>> tables = camelot.read_pdf('edge_tol.pdf', flavor='stream', edge_tol=500)
>>> camelot.plot(tables[0], kind='contour')
>>> plt.show()
>>> tables[0].df

关于python-3.x - Python Camelot 无边框表格提取问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53209335/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com