gpt4 book ai didi

java - 解析文档时如何将文档中字符串的一部分替换为另一个字符串

转载 作者:行者123 更新时间:2023-12-02 00:51:21 25 4
gpt4 key购买 nike

我有一个已解析的 PDF 文档,我使用 java 中的库对其进行了解析。问题是文档中的表格没有正确解析,它像文本一样解析(逐行)。所以我使用了一个名为 Camelot 的 Python 库,它为我提供了解析表格式,并将其发送到 java。我需要将 PDF 解析表替换为来自 Camelot 的表,并保持其余部分完好无损。文档中有多个表,因此解析后的表以字符串列表的形式返回,每个索引给出每个表的解析值。

boundaryEND 标记代表 Camelot 输出所附图像中每个表格的末尾。

我尝试通过调用 allmatch() 方法来使用流,但无法替换该部分,因为 allmatch() 给出 boolean() value(仅指示字符串是否匹配,而不给出元素本身)。 The output from the camelot is this

Java parsed pdf

最佳答案

这可以通过使用自定义收集器的 Stream API 来完成。检查此链接:Split a list into sublists based on a condition with Stream api

关于java - 解析文档时如何将文档中字符串的一部分替换为另一个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57856036/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com