gpt4 book ai didi

r - 根据 R 中的页面拆分 PDF

转载 作者:行者123 更新时间:2023-12-04 01:36:54 24 4
gpt4 key购买 nike

我有一个包含多页的 pdf 文件,但我只对其中的一个子组感兴趣。
例如,我的原始 PDF 有 30 页,而我只想要第 10 到 16 页。

我尝试使用 tabulizer 包中的 split_pdf 函数,它只将 pdf 页面拆分到页面(导致 200 个文件,每个页面一个),然后是 merge_pdfs(合并 pdf 文件)。
它工作正常,但需要很长时间(我必须拆分大约 2000 个 pdf 文件)。

这是我正在使用的代码:

split = split_pdf('file_path')

start = 10
end = 16

merge_pdfs(split[start:end], 'saving_path')

我找不到任何更好的选择来做到这一点。
任何帮助将不胜感激。

最佳答案

不幸的是,我发现您的 PDF 中包含哪些类型的数据以及您试图从中提取哪些数据有点不清楚。所以我概述了两种方法。

  • 如果您在 pdf 中有表格,您应该能够使用以下方法从所述页面中提取数据:tab <- tabulizer::extract_tables(file = "path/file.pdf", pages = 10:16)
  • 如果你只想要文本,你应该使用 pdftools这要快得多:text <- pdftools::pdf_text("path/file.pdf")[10:16]
  • 关于r - 根据 R 中的页面拆分 PDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49329695/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com