gpt4 book ai didi

python - PDFMiner - 获取文本行

转载 作者:行者123 更新时间:2023-12-05 08:00:32 26 4
gpt4 key购买 nike

我正在使用 PDFMiner Python library 将 PDF 文件转换为文本,使用 this SO answer 中提供的代码片段.问题是 PDF 是三列格式的,我需要阅读每一行。但是,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列......由于文本不遵循任何逻辑顺序,我无法解析每一行。那么,有没有办法使用 PDFMiner 获取 PDF 文件的每一行?

编辑:

PDFMiner 自带一个命令行工具,pdf2txt.py , 将 PDF 转换为文本。使用它并将 0.05 设置为字边距,我可以获得更好的格式化文本,但无法实现目标。

最佳答案

我在解析表时也有类似的情况*。对我有用的是提取 HTML。然后您可以解析 HTML 表格并考虑表格标签(请参阅 HTMLParser 的 python 文档。)不过,我只能找到表格。

我的两分钱:)

*从 word 复制到 QT TextEdit 小部件中的表格。 Widget 接受富文本,但如果导出为文本,表格将被弄乱。导出为 HTML,解析 HTML,获取数据 :) 这是在工作中完成的,这里没有代码。

关于python - PDFMiner - 获取文本行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18074259/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com