gpt4 book ai didi

pdf - 从 PDF 中提取关于格式(字体大小、类型等)的文本

转载 作者:行者123 更新时间:2023-12-04 12:26:41 26 4
gpt4 key购买 nike

是否可以从 PDF 文件中提取有关特定字体/字体大小/字体颜色等的文本?我更喜欢 Perl、python 或 *nix 命令行实用程序。我的目标是从 PDF 文件中提取所有标题,以便我将在单个 PDF 中包含一个很好的文章索引。

最佳答案

您可以从 Ghostscript 的 txtwrite 设备(尝试 -dTextFormat=0 | 1 选项)以及带有 -tt 选项的 mudraw (MuPDF) 获取文本和/font/字体大小/位置(无颜色,正如我所检查的那样)。然后解析类似 XML 的输出,例如珀尔。

关于pdf - 从 PDF 中提取关于格式(字体大小、类型等)的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19386711/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com