python - 如何在保持文本结构(标题/副标题/正文)的同时为 PDF 文本提取执行 OCR

转载作者：太空宇宙更新时间：2023-11-03 21:10:33

33

4

我一直在无休止地寻找一种可以在保持结构的同时从 PDF 中提取文本的工具。也就是说，给定这样的文本:

标题

副标题1

正文1

副标题2

正文2

或

标题

副标题 1。正文1

副标题2。正文2

我想要一个可以输出标题、副标题和正文列表的工具。或者，如果有人知道如何执行此操作，那也会很有用:)

如果这 3 个类别采用相同的格式，这会更容易，但有时字幕可以是粗体、斜体、下划线或 3 种的随机组合。标题也是如此。从 HTML/PDF/Docx 简单解析的问题是这些文本没有标准，所以我们经常会遇到分成几个标签的句子(在 HTML 的情况下)并且真的很难解析。如您所见，字幕并不总是位于给定段落上方，有时也位于项目符号中。这么多可能的格式组合...

到目前为止，我在使用 Tesseract 的 here 和使用 OpenCV 的 here 中遇到过类似的查询，但没有一个能完全回答我的问题。

我知道有一些机器学习工具可以从科学论文中提取“目录”部分，但这并不能解决问题。有谁知道包/库，或者是否已经实现了这样的东西？或者有人知道解决这个问题的方法，最好是用 Python 吗？

谢谢!

编辑:

我指的是来自公司的 10-Ks 文档，比如这个 https://www.sec.gov/Archives/edgar/data/789019/000119312516662209/d187868d10k.htm#tx187868_10并且说，我想以我上面提到的程序化和结构化的方式提取项目 7。但并非所有这些都经过标准化来进行 HTML 解析。 (PDF文档就是将这个HTML保存为PDF)

最佳答案

有些工具可以在一定程度上完成您要求的功能。所谓“一定程度”，是指标题和标题字体属性将在 OCR 转换后保留。

看看 Adobe 的 Document Cloud 平台。它仍处于启动阶段，将于 2020 年初启动。但是，开发人员可以通过注册抢先体验计划来抢先体验。所有信息都可以在以下链接中找到:

https://www.adobe.com/devnet-docs/dcsdk/servicessdk/index.html

我亲自试用了该服务，结果看起来很有希望。所有标题和标题案例都会像在输入文档中一样得到识别。提供此确切功能的微服务是“ExportPDF”服务，可将扫描的 PDF 文档转换为 Microsoft Word 文档。

示例代码位于:https://www.adobe.com/devnet-docs/dcsdk/servicessdk/howtos.html#export-a-pdf

关于python - 如何在保持文本结构(标题/副标题/正文)的同时为 PDF 文本提取执行 OCR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51252872/

33

4

0

文章推荐： python - 编译程序时无法包含图标

文章推荐： c# - 我如何从读取所有行的文本文件中解析特定字符串？

文章推荐： python - 如何调用类中的函数？

文章推荐： python-3.x - HSV OpenCv 颜色范围

httpresponse - 休息轻松响应状态+正文
我在休息服务中有以下方法: @POST @Path("/create") @ResponseStatus(HttpStatus.CREATED) @Consumes(M
带有变量的 phpmailer 正文
这个问题不太可能对 future 的访客有帮助；它只与一个小的地理区域、一个特定的时刻或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛地适用，visit the hel
javascript - 在外部单击时关闭弹出窗口(正文)
我有这样的弹出框: Speelland And here's some amazing content. It's very engaging. Right? Meer
javascript - 获取响应头/正文
我正在开发一个 firefox 插件，我正在收听这样的 http 响应: var observerService = Components.classes["@mozilla.org/observer
javascript - 知道为什么这段代码不起作用吗？正文 > *
我正在使用 jqtouch 制作一个移动网站。我还在网站中实现了图库图像 slider ，但是当图库放在我需要的位置时(在之间，图像不会显示。修补了几个小时后，删除了 display: none
CSS 正文 :after not displaying
为了在 iPad 上的 Safari 上显示视差效果，我采用了以下 CSS 规则: body:after { content: ""; position: fixed; top
VBA 在电子邮件正文中插入链接而不使用 HTML 正文？
我想在通过 excel VBA 创建的电子邮件正文中插入一个链接。链接每天都在变化，所以我把它的值放在单元格 B4 中。但是，我找不到正确的方法来发送带有该链接的电子邮件。这是我正在使用的代码: P
postman - 如何发送大型 JSON 正文？
我正在尝试使用具有非常大主体的 Postman 执行 POST 请求。只有一个 JSON 字段非常大，我想知道是否可以从 Postman 的文件中加载该字段？ { "field1": {
SoapUI 原始请求未显示 JSON 正文
这个问题是针对 SoapUI 5.2.1 社区版的: 我有一个包含变量的 JSON 主体的 POST 请求。我总是能够通过单击“原始”选项卡以查看请求进行或将发送到服务器来验证这些参数是否采用正确的
javascript - 文本到 Outlook 正文
我有这个按钮，单击该按钮会打开 Outlook，其中包含我提供的详细信息。我还有一个 TEXTAREA，其中包含某些文本。我正在寻找一种方法让此文本出现在我的 Outlook 正文中。这可以做到吗？请
azure - 多次读取 BrokeredMessage 正文
我知道错误消息是不言自明的，我们无法多次读取消息正文。这里我使用AOP(面向方面编程)来进行审计日志。 [AuditServiceMethod(AttributePriority = 0)] [F
Grails:如何使用命令对象验证由项目列表组成的 POST 正文？
我在 grails 3.3.3 中编写自定义验证器(命令)时遇到了一些问题。具体来说，我正在尝试验证其正文由项目列表组成的 POST 请求。这就是我所拥有的... 命令: class VoteComm
rest - 无法读取 json 正文
这个问题在这里已经有了答案: json.Marshal(struct) returns "{}" (3 个回答) JSON and dealing with unexported fields (3
javascript - 清理带有过多标签的电子邮件 HTML 正文
我想清理很多邮件的 HTML 正文，它们有点脏(取自 Gmail 发送的电子邮件):有很多嵌套，不需要的字体更改等我想清理它并只保留 , , , , , 仅此而已(可能还有或一些，
javascript - 如何旋转 Accordion 正文？
我正在使用 Accordion 功能在我的模块中添加端口详细信息。我只想在水平方向上显示正文内容。请看下面的 fiddle 。 html, body { background-color:#e
javascript - 正文 HTML 中的文本未被正确替换
我的 HTML 正文中有这个: loaded y&EACUTE;t. 使用 JavaScript 我有这个: $( document ).ready(function() { document.bod
javascript - 在谷歌图表中显示 json 正文
我对图表有很大的疑问。我试图在谷歌图表中显示一些 json 值，但我总是会出错。从 JSON 正文中，我只需要图表上个月的“全部购买”和“日期”。我见过的所有例子，他们已经有了一个静态的自定义 Jso
ios - 如何使用文本字段中的文本填充 textComposer 正文
我的应用程序的功能之一涉及用户填写三个单独的文本字段(预订名称、客人和日期)，然后使用文本编辑器通过短信发送这些字段中的文本。我无法将这些 View 中的文本放入正文中。这是我的代码: - (IBAc
javascript - 正文 onunload 事件
我正在开发一个 HTA，它应该对 onunload 事件进行一些最终修改。该事件似乎没有被触发。该事件是否仍受支持？是否有 IE 事件可以知道页面何时关闭？我检查了一下(JavaScript bo
html - 页眉、正文、页脚的多个背景图像
我正在尝试将以下图像添加为网站内容的背景: http://webbos.co/vibration/wp-content/themes/vibration-child-theme/images/back

首页

博学

6Ren·AI

商城

python - 如何在保持文本结构(标题/副标题/正文)的同时为 PDF 文本提取执行 OCR

标题

标题

编辑: