gpt4 book ai didi

java - 自定义 PDFTextStripper PDFbox

转载 作者:行者123 更新时间:2023-12-01 18:38:46 25 4
gpt4 key购买 nike

PDFTextStripper有从整个文档中提取文本的功能,有没有办法在识别到某个值后才提取文本,例如:

A B C D G   1 line

A B C D G 2 line

A B C D G 3 line

QUANTITY 4 line

我想在找到数量(字符串)后开始提取文本如果有人处理过 PDFBox 并提出一些建议,我们将不胜感激

或者是否只有当它到达文本将包含的值之后的一行时才可以添加到列表?

最佳答案

最简单的解决方案是捕获整个文本,然后创建一个模式,显示 -> "DESCRIPTION\\s*Reference\\s*QUANTITY(.*)"所以基本上我想捕获上面提到的单个页面上的所有内容

  1. 创建一个需要 String 的函数文本作为参数定位单个 matcher.group(1) ,然后返回StringOptional<String>

  2. 创建一个模式并使用正则表达式告诉该模式您要从哪里开始捕获

关于java - 自定义 PDFTextStripper PDFbox,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59987460/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com