gpt4 book ai didi

pdf - 有没有一种可靠的方法可以确定 PDF 是否是从 Powerpoint 文件生成的?

转载 作者:行者123 更新时间:2023-12-04 14:43:03 27 4
gpt4 key购买 nike

正如标题所说。我问的原因是我们正在将 PDF 转换为格式化的 ASCII 文本(使用 pdftotext)并且只想显示看起来合理的文本。

PPT 文件往往包含图像上的文本、斜线文本和其他不能很好地转换为 ASCII 的内容,因此我们希望尽可能过滤掉它们。

最佳答案

PDF 的创建应用程序列在其 XMP 元数据中。您可以在 Acrobat 9 中很容易地看到这一点(我相信更早):转到 File > Properties,单击 Additional Metadata...,然后转到 Advanced 并且它列在 XMP Core PropertiesPDF Properties 下:

xmp:CreatorTool: Microsoft PowerPoint
pdf:Creator: Microsoft PowerPoint

我猜您想以编程方式找到它,因此您需要找到一个库来读取适用于您的语言的元数据。 Here是一些 XMP 工具的列表。

关于pdf - 有没有一种可靠的方法可以确定 PDF 是否是从 Powerpoint 文件生成的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1622411/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com