gpt4 book ai didi

search - 将重复(隐藏)文本图层添加到 pdf 中以进行额外搜索

转载 作者:行者123 更新时间:2023-12-03 06:40:40 25 4
gpt4 key购买 nike

我的问题:

我有一个 pdf 文件,其中包含大量带有复杂变音符号的罗马字符(例如 ṣ、ś、ṝ、ǎ 等)。为了更容易在 pdf 中搜索,我想添加一个附加层,就像使用 hocr 所做的那样,其中存在相同的文本,但没有变音符号。

使用全文搜索引擎时,我可以在同一位置(向量)索引多个术语 - 我希望在这里达到相同的效果。

我已经阅读了很多有关向扫描图像添加 HOCR 图层的内容,但我真的只想复制文本图层,将其通过一个删除变音符号的脚本(足够简单),然后将其作为隐藏但添加回来可搜索层。

大家有什么建议吗? (涉及任何平台、语言、库或工具链的解决方案都将很有用!)

谢谢:)

编辑:如果问题不清楚,请告诉我。

最佳答案

嗯,我有一个(有点丑陋和黑客的)解决方案,所以我想我会分享它。

我正在使用PDFMiner提取文本以及坐标。然后我使用 ReportLab将文本的规范化版本写入新的 pdf 中,位置与隐藏文本完全相同。为了使位置正确对齐,我发现我必须使用完全相同的字体,因此我使用了 FontForge 的组合。和 MuPDF从原始 pdf 中提取所需的字体。

最后,创建新的 pdf 后,我使用 pdftk将其与原始内容合并。

它工作得很好,但有一个缺点,即从 pdf 中复制文本也会导致标准化文本被复制。但这对于我目前的目的来说是可以接受的,而且我看不到任何解决办法。 pdf 规范。并不真正支持我的目标,所以我不认为我能比这个黑客解决方案做得更好。

关于search - 将重复(隐藏)文本图层添加到 pdf 中以进行额外搜索,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4031825/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com