python - 单个单词的 PDFMiner 提取

python - 单个单词的 PDFMiner 提取 - LTText LTTextBox

转载作者：行者123 更新时间：2023-12-04 02:41:31

27

4

在下面的示例中，我使用 PDFMiner 生成单词 x,y 坐标，但是结果是逐行生成的。我怎样才能将每个单词从另一个单词中拆分出来，而不是逐行拆分单词组(参见下面的示例)。我已经尝试了 PDFMiner tutorial 中的几个论点。 . LTTextBox 和 LTText 都试过了。此外，我不能使用文本分析中通常使用的开始和结束偏移量。

这个 PDF 是一个很好的例子，它用在下面的代码中。

http://www.africau.edu/images/default/sample.pdf

from pdfminer.layout import LAParams, LTTextBox, LTText
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import PDFPageAggregator

#Imports Searchable PDFs and prints x,y coordinates
fp = open('C:\sample.pdf', 'rb')
manager = PDFResourceManager()
laparams = LAParams()
dev = PDFPageAggregator(manager, laparams=laparams)
interpreter = PDFPageInterpreter(manager, dev)
pages = PDFPage.get_pages(fp)

for page in pages:
    print('--- Processing ---')
    interpreter.process_page(page)
    layout = dev.get_result()
    for lobj in layout:
        if isinstance(lobj, LTText):
            x, y, text = lobj.bbox[0], lobj.bbox[3], lobj.get_text()
            print('At %r is text: %s' % ((x, y), text))

这将返回可搜索 PDF 的 x,y 坐标，如下所示:

--- Processing ---
At (57.375, 747.903) is text: A Simple PDF File
At (69.25, 698.098) is text: This is a small demonstration .pdf file -
At (69.25, 674.194) is text: just for use in the Virtual Mechanics tutorials. More text. And more 
 text. And more text. And more text. And more text.

想要的结果(坐标为演示的代理):

--- Processing ---
At (57.375, 747.903) is text: A
At (69.25, 698.098) is text: Simple
At (69.25, 674.194) is text: PDF
At (69.25, 638.338) is text: File

最佳答案

使用 PDFMiner，在遍历每一行之后(就像你已经做的那样)，你只能遍历行中的每个字符。

我用下面的代码做到了这一点，同时尝试记录每个单词第一个字符的 x、y 并设置条件以在每个 LTAnno 处拆分单词(例如\n )或.get_text() == ' ' 空格。

from pdfminer.layout import LAParams, LTTextBox, LTText, LTChar, LTAnno
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.converter import PDFPageAggregator

#Imports Searchable PDFs and prints x,y coordinates
fp = open('C:\sample.pdf', 'rb')
manager = PDFResourceManager()
laparams = LAParams()
dev = PDFPageAggregator(manager, laparams=laparams)
interpreter = PDFPageInterpreter(manager, dev)
pages = PDFPage.get_pages(fp)

for page in pages:
    print('--- Processing ---')
    interpreter.process_page(page)
    layout = dev.get_result()
    x, y, text = -1, -1, ''
    for textbox in layout:
        if isinstance(textbox, LTText):
          for line in textbox:
            for char in line:
              # If the char is a line-break or an empty space, the word is complete
              if isinstance(char, LTAnno) or char.get_text() == ' ':
                if x != -1:
                  print('At %r is text: %s' % ((x, y), text))
                x, y, text = -1, -1, ''     
              elif isinstance(char, LTChar):
                text += char.get_text()
                if x == -1:
                  x, y, = char.bbox[0], char.bbox[3]    
    # If the last symbol in the PDF was neither an empty space nor a LTAnno, print the word here
    if x != -1:
      print('At %r is text: %s' % ((x, y), text))

输出如下所示

At (64.881, 747.903) is text: A
At (90.396, 747.903) is text: Simple
At (180.414, 747.903) is text: PDF
At (241.92, 747.903) is text: File

或许您可以根据您的要求和喜好优化检测词的条件。 (例如，在词尾剪掉标点符号 .!?)

关于python - 单个单词的 PDFMiner 提取 - LTText LTTextBox，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59182694/

27

4

0

文章推荐： r - 不同大小的圆圈与ggplot

文章推荐： amazon-web-services - AWS Kinesis 和 EventBridge 有什么区别

文章推荐：包含一个字符串但不包含另一个字符串的字符串的正则表达式

pdfminer - 安装 PDFMiner for Python2.7 时出现错误
我按照这里的说明操作:file:///home/bioinfo/Descargas/pdfminer3k-1.3.0/docs/index.html 下载 pdfminer3k-1.3.0 后我做了:
python - pdfminer - 导入错误 : No module named pdfminer. pdfdocument
我正在尝试安装 pdfMiner 以使用 CollectiveAccess。我的主机 (pair.com) 为我提供了以下信息来帮助我完成此任务: When compiling, it will li
python - PDFminer - 有没有办法从 pdfminer 将 pdf 转换为 html？
使用 pdfminer 将 pdf 转换为 html 是一种简单的方法吗？我见过很多这样的问题，但他们不会给我一个正确的答案... 我已经在我的 ConEmu 提示中输入了这个: # pdf2txt.
python - PDFMiner - 获取文本行
我正在使用 PDFMiner Python library 将 PDF 文件转换为文本，使用 this SO answer 中提供的代码片段.问题是 PDF 是三列格式的，我需要阅读每一行。但是，我得
python - PDFMiner - 将页面导出为字符串列表
我希望将 pdf 中的文本导出为字符串列表，其中列表是整个文档，字符串是 PDF 的页面。我正在使用 PDFMiner 来完成这项任务，但它非常复杂，而且我的截止日期很紧。到目前为止，我已经获得了将
python - PDFminer 给出奇怪的字母
我正在使用 python2.7 和 PDFminer 从 pdf 中提取文本。我注意到有时 PDFminer 会给我带有奇怪字母的单词，但 pdf 查看器不会。另外，对于某些 pdf 文档，PDFmi
python - PDFMiner - 遍历页面并将它们转换为文本
因此，我试图从一些 PDF 中获取特定的文本位，并且我将 Python 与 PDFMiner 一起使用，但由于 API 发生了一些变化，在 November 2013 中发生了一些问题。 .基本上，要
python PDFminer 只解析部分页面
我正在使用模块 pdfminer python 模块解析 PDF 文档。我只想从此文档中提取文本。过程进行得很顺利，但是当我提取 LTText* 对象时，我意识到我并没有得到 LTText* 对象中
python - PDFminer 空输出
在处理 file 时使用 pdfminer (pdf2txt.py) 我收到空输出: dan@work:~/project$ pdf2txt.py docs/homericaeast.pdf dan
python - PDFminer:提取带有字体信息的文本
这个问题在这里已经有了答案: How to extract text and text coordinates from a PDF file? (4 个答案) 关闭上个月。我找到了 this q
python pdfminer - KeyError 'AcroForm'
我有一个获取附件文件名的脚本，如果扩展名表示 pdf 文件，它会通过以下代码运行它。但是我收到了下面的 KeyError。我找不到有关如何更正或排除故障的任何信息。我之前已经通过这个脚本成功地运行了
python - Python 中的 PDFminer
我下载了pdfminer，命令行方法工作得很好，但我希望能够同时转换多个pdf文档，所以我尝试使用pdfminer作为库，我找到了这个os stackoverflow，但我不能让它工作.. from
python - 使用 pdfminer 获取章节的起始页码。
是否有任何方法可以使用 pdfminer 或任何其他适用于 python 的包来获取 pdf 中特定部分的页码。我需要获取 pdf 索引部分的页码。最佳答案我知道这是一篇旧帖子，但我一直遇到同样的
Python pdfminer LAParams 混合文本输出
我有一个 pdf 文件，我想用 pdfminer 解析它的文本。问题是 LAParams 有时会失败并在最后给出该行的一部分。我不明白为什么。我的 pdf 看起来像这样: 输出看起来像这样: 我的代码
python - 关于 pdfminer 的警告
我在 stackoverflow 中找到并(稍微)修改了这个脚本，使其可以在 python 3.3 上运行: from pdfminer.pdfinterp import PDFResourceMan
python - PDFminer:PDFTextExtractionNotAllowed 错误
这个问题在这里已经有了答案: How to unlock a "secured" (read-protected) PDF in Python? (9 个回答) 关闭 3 个月前。我正在尝试从互联
Python:特殊字符给我带来问题(来自 PDFminer)
我使用 PDFminer 的 pdf2text 将 PDF 缩减为文本。不幸的是它包含特殊字符。让我显示控制台的输出 >>>a=pdf_to_text("ap.pdf") 这里是它的一个样本，有点截断
python - 如何使用 pdfminer 作为库
我正在尝试使用 pdfminer 从 pdf 中获取文本数据.我可以使用 pdfminer 命令行工具 pdf2txt.py 成功地将这些数据提取到 .txt 文件中。我目前这样做，然后使用 pyth
python - pdfminer pdf2text 输出 'FF'
我有一个pdf文件。在我的win 10、python 3.6环境中安装pdfminer.6后，我运行: $ pdf2txt.py -o test1 download.pdf 给我屏幕截图输出。当我运行
python - 如何处理 PDFMiner 提取的文本中的 CID？
我有一些印地语的 PDF，并且有可提取的文本。我使用 pdfminer.six for python 3.6 来进行提取。输出如下: 正如我们所见，有许多字符被转换为“(cid :number)”形式

首页

博学

6Ren·AI

商城

python - 单个单词的 PDFMiner 提取 - LTText LTTextBox