gpt4 book ai didi

java - 是否可以使用 java 正则表达式搜索 PDF 或 Word 文档中的文本?

转载 作者:行者123 更新时间:2023-12-02 08:48:07 25 4
gpt4 key购买 nike

我不是在询问任何产品推荐

我想使用 Java 的正则表达式从 Word 文档或 pdf 文档中搜索文本。是否可以?如何做到这一点?

例如,PDF/DOC看起来像这样:

(54) About Keyboard                                     More InfoDate: 29/02/2003                                     Printed: USFiled: 19/03/2005                                     Viewed: 5 times 

Now my aim is to run a regex-based search on this document using java.

Initially, I tried text extraction but since these are unstructured and scattered I can't use the extracted text.

For example, I want to do this:

File fl = new File ("sample.pdf");
String res= FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);

我想要的输出是:(54) About Keyboard

如何实现我的目标?哪个库可以帮助我使用 Java 来完成此操作?

最佳答案

不能直接使用 Java 进行搜索。您可以使用Tika提取文件的内容,然后您可以应用正则表达式。

关于java - 是否可以使用 java 正则表达式搜索 PDF 或 Word 文档中的文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21139839/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com