gpt4 book ai didi

ruby - 使用 ruby​​ 解析 PDF 文档

转载 作者:数据小太阳 更新时间:2023-10-29 07:03:28 24 4
gpt4 key购买 nike

我在一个文件夹中有多个具有特定结构的 PDF 文档:

enter image description here

现在我希望能够解析 PDF 中的信息。请注意,段落的长度各不相同。

显然,我并不是要你为我解决问题,但我确实需要一些关于如何实现这一目标的指导。

我以前使用过 nokogiri,从技术上讲,我需要类似的东西,但用于 PDF。

因此我的示例的伪结果如下所示:

- ItemA
- Title: ItemA
- File: 123456789.pdf
- Image: ImageA.png (the image was stored on disk)
- Subtitle1: Content for subtitle 1
- Subtitle2: Content for subtitle 2
- Subtitle3: Content for subtitle 3
- TitleB
- [...]

最佳答案

pdf-reader是解决方案之一。但它有时会出现问题,它不会以正确的格式提供文本。我用过。

我建议使用 docsplit 。您将在 this blog post 中找到有关“pdf-reader”和“docsplit”的更多信息

希望这对您有所帮助。如果需要任何说明,请随时发表评论。

关于ruby - 使用 ruby​​ 解析 PDF 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28126401/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com