gpt4 book ai didi

java - 如何检测不同类型的PDF

转载 作者:行者123 更新时间:2023-12-01 14:25:08 27 4
gpt4 key购买 nike

PDF 文件扩展名可以通过魔术签名进行验证:25 50 44 46

但是,我想检测PDF是否包含文本或图像(即PDF是否包含可以使用ctrl+f搜索的文本或是否包含扫描文档)

有办法做到这一点吗?

最佳答案

从技术上讲,您可以解析 PDF 文档结构并查找包含文本的元素。我想这需要付出很大的努力才能实现。

因此,您可能想使用预制的 PDF 包来为您进行解析(PDFBox、BfoPDF 或类似的东西)。不过,我认为实现起来还需要一些努力。

据我所知,最简单的方法是使用一个可以为您提取纯文本的包。 Apache TIKA 可以做到这一点。只需将文档提供给它,看看是否能得到返回。

无论如何,对同时包含图像和文本的 PDF 进行分类是很困难的。

关于java - 如何检测不同类型的PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17216790/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com