gpt4 book ai didi

ruby-on-rails - 使用 docsplit 从内存中的文档中提取文本

转载 作者:数据小太阳 更新时间:2023-10-29 08:49:41 25 4
gpt4 key购买 nike

随着docsplit gem 我可以从 PDF 或任何其他文件类型中提取文本。例如,使用以下行:

 Docsplit.extract_pages('doc.pdf')

我可以得到一个PDF文件的文本内容。

我目前正在使用 Rails,PDF 通过请求发送并保存在内存中。查看 API 和源代码,我找不到从内存中提取文本的方法,只能从文件中提取文本。

有没有一种方法可以避免创建临时文件来获取此 PDF 的文本?

如果重要的话,我会使用 attachment_fu

最佳答案

使用临时目录:

require 'docsplit'

def pdf_to_text(pdf_filename)
Docsplit.extract_text([pdf_filename], ocr: false, output: Dir.tmpdir)

txt_file = File.basename(pdf_filename, File.extname(pdf_filename)) + '.txt'
txt_filename = Dir.tmpdir + '/' + txt_file

extracted_text = File.read(txt_filename)
File.delete(txt_filename)

extracted_text
end

pdf_to_text('doc.pdf')

关于ruby-on-rails - 使用 docsplit 从内存中的文档中提取文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16286093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com