gpt4 book ai didi

java - 如何避免pdfbox附加单独的单词

转载 作者:行者123 更新时间:2023-12-01 04:52:20 30 4
gpt4 key购买 nike

我正在制作一个允许使用 apache Solr 在 pdf 中搜索的应用程序。我无法在 pdf 中找到某些术语。

我注意到列中的单词被附加了。

例子

 Column1 | Column2
stack | overflow

这里 PdftextStripper 有时会给我计算器作为提取的文本。这会导致 solr 中的不良tokinazation,从而阻止您找到该术语。 (是的,我知道我可以使用通配符,但这在短语查询中不起作用)

我一直在查看来源以了解导致问题的原因。但似乎 writePage 方法必须猜测空格。我无法真正改变这一点,因为它看起来非常复杂。

是否有其他解决方案可以从带有列的 pdf 中获得良好的文本提取?
  • 也许某种转换其他程序。
  • 也许是pdfbox的补丁。
  • 是的,我见过类似的
    问题,但他们主要处理提取的顺序(在
    我的情况没有那么重要)。
  • 最佳答案

    我在使用 PDFbox 提取文本时遇到了同样的问题。我通过获取每个字符的位置信息解决了这个问题。我取了每个字符的 x 位置和 y 位置。并实现了一个简单的逻辑来区分单词。在此之前,我的单词分隔符只是“”(空格)。我又加了一个逻辑,如果两个字符的 X 位置的差值超过某个值(这个值由你选择),并且在同一行,那就是相同的 y 坐标(不同的 y 坐标意味着肯定是一个新词),我把它们当作一个新词。通过这种逻辑,我能够解决表格内容、换行等问题。

    link将帮助您使用 PDFbox 从 pdf 中获取字符的位置。

    关于java - 如何避免pdfbox附加单独的单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13971656/

    30 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com