pdf - 如何通过xpdf或mupdf获取指定的文本pos？-6ren

pdf - 如何通过xpdf或mupdf获取指定的文本pos？

转载作者：行者123 更新时间：2023-12-04 14:41:48

26

4

我想提取pdf文件中的一些指定文本和文本位置。

我知道 xpdf 和 mupdf 可以解析 pdf 文件，所以我认为它们可以帮助我完成这项任务。

但是如何使用这两个库来获取文本位置呢？

最佳答案

如果您不介意对 MuPDF 使用 Python 绑定(bind)，这里有一个使用 PyMuPDF 的 Python 解决方案(我是它的开发者之一):

import fitz                     # the PyMuPDF module
doc = fitz.open("input.pdf")    # PDF input file
page = doc[n]                   # page number n (0-based)
wordlist = page.getTextWords()  # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)

# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()

# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))

如果您有兴趣，我们在 GitHub 上。

关于pdf - 如何通过xpdf或mupdf获取指定的文本pos？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7512674/

26

4

0

文章推荐： list - Groovy 获取某个索引下列表中的所有元素

文章推荐： laravel - 如何在 Laravel 中使用 ->append v. protected $appends

文章推荐： scala - 从解析日期获取年、月、日

pos-for-.net - 带有 .NET POS 的 POS 系统
我计划使用 pos for .net 创建我自己的 POS 系统。到目前为止，我从未创建过任何 POS 系统或为 .net 使用过 pos。我试图找到一些教程但没有成功，有人知道一些好的网站或书籍吗
python - pygame surface.blit(bg,pos,pos) 对比。 surface.blit(bg,pos)，你明白这个吗？
阅读 pygame 教程 here ，你会发现这个例子:(箭头是我的) for o in objects: screen.blit(background, o.pos, o.pos) # Re
Android POS 打印机 ESC/POS
所以我一直在为蓝牙打印机编写 Android 应用程序一段时间，我意识到这实际上是 ESC/POS 标准:http://nicholas.piasecki.name/blog/wp-content/u
odoo - 如何将每件商品的 POS 餐厅备注添加到 POS 餐厅收据中？
我设法在上更改了 POS 收据模板/addons/point_of_sale/static/src/xml/pos.xml 其中位于: 但是如何更改 PosTicket 上的详细信息？
C - 子字符串(从 POS 到 POS)
我有一个长度为 32 的字符数组，想从中取出某些字符。例如 111111000000000000000000111111 #include #include /* Creates a sub-s
pos-tagger - Parsey McParseface 中使用了 POS 标签和依赖标签集的定义？
Parsey McParseface输出的POS标签和Depedency标签在 tag-set 中给出和 label-set文件 here分别。 Syntaxnet自述文件概述了该模型是在 Penn
nlp - 以conll格式输出结果(POS-tagging, stanford pos tagger)
我正在尝试使用 Stanford POS-tagger，我想问一下是否可以解析(实际上只有 pos 标签就足够了)英文文本并以 conll 格式输出结果。有这样的选择吗？我正在使用 Stanford
python - 将平均感知器标记器 POS 转换为 WordNet POS 并避免元组错误
我有使用 NLTK 的平均感知器标记器进行词性标记的代码: from nltk.corpus import wordnet from nltk.stem import WordNetLemmatize
java - 为 POS 打印机编写正确的 ESC/POS 命令
我正在尝试为 58mm POS 热敏打印机编写正确的 ESC/POS 命令。我尝试将此命令作为 ASCII 文本输入，并将其转换为 HEX，但在这两种情况下，打印机都只打印此代码，而不是收据输出。代码
python - spaCy NLP word.pos 返回数字而不是 POS 标签
我正在使用 spaCy 库进行 POS 标记，但是当我运行这段代码时，它会返回数字来代替 pos 标签: import spacy from spacy.lang.fr.examples import
html - 没有 pos 的垂直居中图像 :absolute inside pos:relative
我博客的标题显示标题后面有一张图片。我希望这张图片有自己的高度直到它变得大于50vh(用户视口(viewport)的 50%)。但正常行为是图像从底部裁剪，我希望图像从顶部和底部裁剪(换句话说:我希
Python:将 NLTK Stanford POS 标签映射到 WordNet POS 标签
我正在阅读句子列表并使用 NLTK 的 Stanford 词性标注器标记每个单词。我得到这样的输出: wordnet_sense = [] for o in output: a = st.ta
.net - 将 C++ POS 控件与 .NET POS SDK 连接时出现问题
我们正在尝试实现一个支持 COM 接口(interface)的 .NET 服务对象来模拟 POSPrinter，但仍然与旧技术兼容。我们在下面的类中有我们的接口(interface)和类对象。 us
python - NLTK POS 标签 : how to put the 'Word' and its corresponding 'POS Tag' in a DataFrame
我有一个列表 list = ['about','above','account','address','after'] 我将其传递给 nltk pos 标签函数，输出看起来像这样以列表的形式: [(
c++ - 为什么 gl_FragCoord.z 不同于 ((pos.z/pos.w) + 1.0) * 0.5？
有谁知道为什么“深度”(vertShader) 不同于“gl_FragCoord.z”(从 opengl 渲染)？特别是随着 z 的减小，差异变得更大。 “深度”是否有可能在更高的 z 值下更精确？
css - 如何获得最小宽度行为(例如 float 或 pos : abs) without using a float or pos: abs 时
假设我有一个 block 元素，例如 h2: Title 然后我给它一个背景色。背景将跨越 wrapper 的整个宽度(应该如此)。如果我 float 它，或者 position: absolute
html - 当 parent 有 pos : absolute and his parent has pos: relative 时 z-index 不工作
我提供了一个 fiddle : http://jsfiddle.net/dCYdw/ 这个例子很惨，但是问题也能看出来。 .levelFive 是问题所在。这应该在所有其他元素之前，因为它的 z-in
c++ - v pos(MAX)v tmp是非类类型 ‘__gnu_cxx::__alloc_traits>::value_type {aka int}’ pos [i] .push_back(tmp);
C++(STL): Request for member ‘push_back’ in ‘pos.std::vector::operator[](((std::vector::size_type)i)
JavaScript动画每次迭代时元素的变量错误 "pos"
以下 JavaScript 中包含云图像的元素的动画的逻辑错误到底是什么？我认为“pos”变量似乎在每次迭代中都偏离了方向，而且我无法弄清楚每次迭代时云图像的运动如何变得越来越疯狂。 //CSS: #
r - 编织者忽略了fig.pos？
我正在尝试在RMarkdown文档中插入图形，但无法将其显示在正确的位置。下图显示了该问题:使用图标题时，该图显示在页面顶部而不是文档中相关段落的下面。这是此最小工作示例的代码: --- title

首页

博学

6Ren·AI

商城

pdf - 如何通过xpdf或mupdf获取指定的文本pos？