- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在尝试将 Invoice2Data 库与 Python 结合使用。该库可以使用 pdftotext 或 google vision。第一个选项要快得多,而且是免费的(大偏好)。它使用 PDF 中的标签来查找相应的数据。但是,如果 pdf 只是 PNG 或 JPEG 的 Base64(或其他编码方案)的包装器,它将永远找不到相应的标签。
有没有办法知道 PDF 是带有标签的“真实”pdf 还是只是一个包装器?
这是使用标签的 PDF 中的数据示例:
BT 328.788 499.616 Td /F1 9.0 Tf [(Quantity)] TJ ET
0.925 0.925 0.925 rg
397.869 495.279 76.581 15.000 re f
0.800 0.800 0.800 rg
0.800 0.800 0.800 RG
397.869 494.529 m 475.199 494.529 l 474.449 495.279 l 397.869 495.279 l f
0.733 0.733 0.733 rg
0.733 0.733 0.733 RG
475.199 510.279 m 475.199 494.529 l 474.449 495.279 l 474.449 510.279 l f
0.000 0.000 0.000 rg
BT 406.119 499.616 Td /F1 9.0 Tf [(Unit price \(€\))] TJ ET
0.925 0.925 0.925 rg
475.199 495.279 76.581 15.000 re f
0.800 0.800 0.800 rg
0.800 0.800 0.800 RG
475.199 494.529 m 552.530 494.529 l 551.780 495.279 l 475.199 495.279 l f
0.733 0.733 0.733 rg
0.733 0.733 0.733 RG
552.530 510.279 m 552.530 494.529 l 551.780 495.279 l 551.780 510.279 l f
0.000 0.000 0.000 rg
BT 483.449 499.616 Td /F1 9.0 Tf [(Total \(€\))] TJ ET
这是包装器的样子:
2030 206f 626a 0a3c 3c0a 2f46 696c 7465
7220 2f46 6c61 7465 4465 636f 6465 0a2f
4c65 6e67 7468 2031 3031 0a3e 3e0a 7374
7265 616d 0a78 9c01 5a00 a5ff f5f5 f5e7
e7e7 e2e2 e2bb bbbb 0000 00cd cdcd fcfc
fcff ffff ebeb ebdd dddd f8f8 f846 4646
7777 7757 5757 2424 2467 6767 8888 8834
3434 d3d3 d309 0909 9898 9815 1515 c7c7
c7ee eeee d8d8 d8a5 a5a5 c1c1 c1b3 b3b3
e9e9 e9f2 f2f2 92d5 3a33 0a65 6e64 7374
7265 616d 0a65 6e64 6f62 6a0a 3320 3020
6f62 6a0a 3c3c 0a2f 5479 7065 202f 584f
626a 6563 740a 2f53 7562 7479 7065 202f
496d 6167 650a 2f57 6964 7468 2031 3635
340a 2f48 6569 6768 7420 3233 3339 0a2f
4269 7473 5065 7243 6f6d 706f 6e65 6e74
2038 0a2f 436f 6c6f 7253 7061 6365 205b
2f49 6e64 6578 6564 202f 4465 7669 6365
5247 4220 3239 2034 2030 2052 5d0a 2f46
696c 7465 7220 2f46 6c61 7465 4465 636f
6465 0a2f 4c65 6e67 7468 2036 2030 2052
0a3e 3e0a 7374 7265 616d 0a78 9cec 9d87
a2e2 2a10 862d 98a8 e992 a831 fafe afb9
0c1d 12db d9e3 69fe dfde bb6b 1a2d 30c3
[编辑] 这是 solution我用过:
cmd = ['pdffonts', path]
proc = subprocess.Popen(
cmd, stdout=subprocess.PIPE)
out, err = proc.communicate()
scanned = True
for idx, line in enumerate(out.splitlines()):
if idx == 2:
scanned = False
最佳答案
作为快速解决方法:为什么不使用 grep (pdfgrep) 来检查是否存在 BT、rg、Td还是类似的?
不管怎样我都盯着它看,因为我遇到了同样的问题使用 Tabula 时
关于python - 有没有办法确定 PDF 是 "real"PDF 还是 PNG 的包装器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56873100/
我之前让 dll 注入(inject)器变得简单,但我有 Windows 7,我用 C# 和 C++ 做了它,它工作得很好!但是现在当我在 Windows 8 中尝试相同的代码时,它似乎没有以正确的方
我正在尝试制作一个名为 core-splitter 的元素,该元素在 1.0 中已弃用,因为它在我们的项目中起着关键作用。 如果您不知道 core-splitter 的作用,我可以提供一个简短的描述。
我有几个不同的蜘蛛,想一次运行所有它们。基于 this和 this ,我可以在同一个进程中运行多个蜘蛛。但是,我不知道如何设计一个信号系统来在所有蜘蛛都完成后停止 react 器。 我试过了: cra
有没有办法在达到特定条件时停止扭曲 react 器。例如,如果一个变量被设置为某个值,那么 react 器应该停止吗? 最佳答案 理想情况下,您不会将变量设置为一个值并停止 react 器,而是调用
https://code.angularjs.org/1.0.0rc9/angular-1.0.0rc9.js 上面的链接定义了外部js文件,我不知道Angular-1.0.0rc9.js的注入(in
我正在尝试运行一个函数并将服务注入(inject)其中。我认为这可以使用 $injector 轻松完成.所以我尝试了以下(简化示例): angular.injector().invoke( [ "$q
在 google Guice 中,我可以使用函数 createInjector 创建基于多个模块的注入(inject)器。 因为我使用 GWT.create 在 GoogleGin 中实例化注入(in
我在 ASP.NET Core 1.1 解决方案中使用配置绑定(bind)。基本上,我在“ConfigureServices Startup”部分中有一些用于绑定(bind)的简单代码,如下所示: s
我在 Spring MVC 中设置 initBinder 时遇到一些问题。我有一个 ModelAttribute,它有一个有时会显示的字段。 public class Model { privat
我正在尝试通过jquery post发布knockoutjs View 模型 var $form = $('#barcodeTemplate form'); var data = ko.toJS(vm
如何为包含多态对象集合的复杂模型编写自定义模型绑定(bind)程序? 我有下一个模型结构: public class CustomAttributeValueViewModel { publi
您好,我正在尝试实现我在 this article 中找到的扩展方法对于简单的注入(inject)器,因为它不支持开箱即用的特定构造函数的注册。 根据这篇文章,我需要用一个假的委托(delegate)
你好,我想自动注册我的依赖项。 我现在拥有的是: public interface IRepository where T : class public interface IFolderReposi
我正在使用 Jasmine 测试一些 Angular.js 代码。为此,我需要一个 Angular 注入(inject)器: var injector = angular.injector(['ng'
我正在使用 Matlab 代码生成器。不可能包含代码风格指南。这就是为什么我正在寻找一个工具来“ reshape ”、重命名和重新格式化生成的代码,根据我的: 功能横幅约定 文件横幅约定 命名约定 等
这个问题在这里已经有了答案: Where and why do I have to put the "template" and "typename" keywords? (8 个答案) 关闭 8
我开发了一种工具,可以更改某些程序的外观。为此,我需要在某些进程中注入(inject)一个 dll。 现在我基本上使用这个 approach .问题通常是人们无法注入(inject) dll,因为他们
我想使用 swing、spring 和 hibernate 编写一个 java 应用程序。 我想使用数据绑定(bind)器用 bean 的值填充 gui,并且我还希望它反射(reflect) gui
我有这段代码,当两个蜘蛛完成后,程序仍在运行。 #!C:\Python27\python.exe from twisted.internet import reactor from scrapy.cr
要点是 Spring Batch (v2) 测试框架具有带有 @Autowired 注释的 JobLauncherTestUtils.setJob。我们的测试套件有多个 Job 类提供者。因为这个类不
我是一名优秀的程序员,十分优秀!