- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用 Ghostscript 从 PDF 的一部分(使用坐标)中提取文本。
谁能帮我吗?
最佳答案
是的,使用 Ghostscript,您可以从 PDF 中提取文本。但不,它不是这项工作的最佳工具。不,您不能在“部分”(单页的部分)中进行。您可以做什么:仅提取特定范围页面的文本。
第一:Ghostscript's txtwrite
输出设备(不太好)
gs \
-dBATCH \
-dNOPAUSE \
-sDEVICE=txtwrite \
-dFirstPage=3 \
-dLastPage=5 \
-sOutputFile=- \
/path/to/your/pdf
这会将第 3-5 页中包含的所有文本输出到标准输出。如果要输出到文本文件,请使用
-sOutputFile=textfilename.txt
gs
更新:
txtwrite
中进行了重大改进。设备和错误修复。见
recent Ghostscript changelogs (在该页面上搜索 txtwrite)了解详情。
ps2ascii.ps
PostScript utility (更好的)
gs \
-q \
-dNODISPLAY \
-P- \
-dSAFER \
-dDELAYBIND \
-dWRITESYSTEMDICT \
-dSIMPLE \
/path/to/ps2ascii.ps \
input.ps \
-c quit
如果
-dSIMPLE
参数未定义,每个输出行都包含一些关于使用的字体和字体大小的纯文本内容之外的附加信息。
-dCOMPLEX
替换该参数,您将获得有关所用颜色和图像的其他信息。
pdftotext
CLI 实用程序(比 Ghostscript 更舒适)
pdftotext
(适用于 Windows 以及 Linux/Unix 或 Mac OS X)。此实用程序基于 Poppler 或 XPDF。这是您可以尝试的命令:
pdftotext \
-f 13 \
-l 17 \
-layout \
-opw supersecret \
-upw secret \
-eol unix \
-nopgbrk \
/path/to/your/pdf
- |less
这将显示页面范围 13(第一页)到 17(最后一页),保留双密码保护的命名 PDF 文件的布局(使用用户和所有者密码 secret 和 supersecret),使用 Unix EOL 约定,但不插入分页符在 PDF 页面之间,通过更少的管道传输...
pdftotext -h
显示所有可用的命令行选项。
pdftotext
更新:
pdftotext
现在可以选择提取“PDF 的一部分(使用坐标)”页面,就像 OP 要求的那样。参数是:
-x <int>
: 裁剪区域左上角的 x 坐标 -y <int>
: 裁剪区域的左上角 y 坐标 -W <int>
: 裁剪区域的宽度(以像素为单位)(默认为 0)-H <int>
: 裁剪区域的高度(以像素为单位)(默认为 0)-layout
一起使用范围。
mutool draw
命令也可以提取文本
mutool
.要使用此工具从 PDF 中提取文本,请使用:
mutool draw -F txt the.pdf
将提取的文本发送到
<stdout>
.使用
-o filename.txt
将其写入文件。
Geometry
TET provides precise metrics for the text, such as the position on the page, glyph widths, and text direction. Specific areas on the page can be excluded or included in the text extraction, e.g. to ignore headers and footers or margins.
podofotxtextract
(CLI 工具)来自 PoDoFo 项目(开源)calibre
(通常是处理电子书的 GUI 程序,开源)有一个命令行选项可以从 PDF 中提取文本 AbiWord
(GUI 文字处理器,开源)可以导入 PDF 并将其文件保存为 .txt:abiword --to=txt --to-name=output.txt input.pdf
关于从给定坐标提取 PDF 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6187250/
在下面的代码中,我得到一个 uninitialized value警告,但仅限于第二个 given/when例子。为什么是这样? #!/usr/bin/env perl use warnings; u
整个“开关”功能是否已成为实验性的?在没有 Perl 的 future 版本破坏我的代码的情况下,我可以依赖其中的某些部分吗?一般来说,将稳定功能更改为实验性的政策是什么? 背景use feature
有没有办法在一个条件语句中写出如下语句? a和b不能同时等于5。 (a可以是5,b可以是5,但是a AND b不能是5) 最佳答案 正如克里斯指出的那样,您要查找的是逻辑异或,相当于逻辑不等于 !=:
我正在寻找一种算法来找到给定 n 条线段的所有交点。以下是来自 http://jeffe.cs.illinois.edu/teaching/373/notes/x06-sweepline.pdf 的伪
数组中有 N 个元素。我可以选择第一项最多 N 次,第二项最多选择 N-1 次,依此类推。 我有 K 个 token 要使用并且需要使用它们以便我可以拥有最大数量的项目。 arr = [3, 4, 8
我正在尝试修复法语文本中的语法性别,想知道是否有办法从某个词条中获取所有单词的列表,以及是否可以在此类列表中进行查找? 最佳答案 尝试: import spacy lemma_lookup = spa
我正在为 Win32 编写一个简单的自动化测试应用程序。它作为一个单独的进程运行,并通过 Windows API 访问目标应用程序。我可以阅读窗口层次结构,查找标签和文本框,并通过发送/发布消息等来单
在 nodeJs 中使用 Sequelize 时,我从 Sequelize 收到此错误,如下所示: { [SequelizeUniqueConstraintError: Validation erro
本文https://arxiv.org/pdf/1703.10757.pdf使用回归激活映射 (RAM) - 而不是类激活映射 (CAM) 来解决问题。有几篇文章描述了如何实现 CAM。但是我找不到
我正在研究 Mach 动态链接器 dyld。这个问题适用于所有 Apple 平台,但很高兴得到特定于平台的答案;我正在使用 ObjC,但如果对你有用的话,我也很乐意翻译 Swift。 The rele
我有一个包含数千个 Instagram 用户 ID 的列表。我如何获得他们的 Instagram 用户名/句柄? 最佳答案 你必须使用这个 Instagram API: https://api.ins
我在下面的代码: def main(args: Array[String]) { val sparkConf = new SparkConf().setAppName("Spark-Hbase").s
我有一个表格,其中包含从 1 到 10 的数字。(从 D2 到 M2) 假设A1中有03/09/2019 并且在B1中有06/09/2019 并且在C1中有Hello 在A 列中,我有多个系列的单词,
我想在给定服务对应的 URI 的情况下检索服务的注释(特别是 @RolesAllowed )。这是一个例子: 服务: @GET @Path("/example") @RolesAllowed({ "B
我看到 OraclePreparedStatementexecuteQuery() 表现出序列化。也就是说,我想使用相同的连接对 Oracle 数据库同时运行两个查询。然而,OraclePrepare
import java.util.Scanner; public class GeometricSumFromK { public static int geometricSum(int k,
我创建了一个抽象基类Page,它说明了如何构建动态网页。我正在尝试想出一种基于作为 HttpServletRequest 传入的 GET 请求生成 Page 的好方法。例如... public cla
我的字符串是一条短信,采用以下两种格式之一: 潜在客户短信: 您已收到 1 条线索 标题:我的领导 潜在客户 ID:12345-2365 警报设置 ID:890 短信回复: 您已收到 1 条回复 标题
我在 python 中有以下代码: class CreateMap: def changeme(listOne, lisrTwo, listThree, listFour, listfive):
这是在 Hibernate 上运行的 JPA2。 我想检索相同实体类型的多个实例,给定它们的 ID。其中许多已经在持久性上下文和/或二级缓存中。 我尝试了几种方法,但似乎都有其缺点: 当我使用 ent
我是一名优秀的程序员,十分优秀!