gpt4 book ai didi

apache - 如何检测文档中的图像

转载 作者:行者123 更新时间:2023-12-01 14:39:20 25 4
gpt4 key购买 nike

如何检测文档(如 doc、xls、ppt 或 pdf)中的图像?

我遇到了 Apache Tika,我正在尝试它的命令行选项。 http://tika.apache.org/1.2/gettingstarted.html

但不太确定它将如何检测图像。

感谢任何帮助。

谢谢

最佳答案

你说过你想使用命令行解决方案,而不是编写任何 Java 代码,所以这不是最好的方法......如果你愿意写一点 Java,并创建一个从 Python 调用的新程序,然后你可以做得更好!

首先要做的是让 Tika 应用程序提取文件中的任何嵌入资源。为此使用 --extract 选项,并在应用程序控制的特殊临时目录中进行提取,例如

$ java -jar tika.jar --extract ../testWORD_embedded_pdf.doc
Extracting 'image1.emf' (application/x-emf)
Extracting '_1402837031.pdf' (application/pdf)

如果可以的话,获取提取的输出,并解析它以寻找图像(但请注意,某些图像在其规范的 mime 类型上具有 application/ 前缀!)。您可能需要对一些运行第二个 --detect 步骤,我不确定,测试解析器如何进行提取。

现在,如果有图像,它们将在您的测试目录中。根据需要处理它们。最后,当你完成文件后,删除临时目录!

关于apache - 如何检测文档中的图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11932762/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com