gpt4 book ai didi

Ruby 解析包含文本和图像的 PDF 文件

转载 作者:太空宇宙 更新时间:2023-11-03 16:34:20 26 4
gpt4 key购买 nike

我有一个包含文本图像 内容的pdf 文件。我需要解析它。有什么ruby gem可以用吗?我试过pdf-reader ruby gem 但没有解析图像 :(

另一种解决方案是将 pdf 提取为 html,然后解析 html 内容。是否有任何开源 pdf2html 转换器可以处理文本和图像?

最佳答案

pdf-reader 可以提取图像,但是没有像 PDF::Reader::Page#text() 这样的好 helper ,所以它非常手动。

检查 extract_images.rd 示例@ [1]。

[1] https://github.com/yob/pdf-reader/blob/master/examples/extract_images.rb

关于Ruby 解析包含文本和图像的 PDF 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10164991/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com