gpt4 book ai didi

r - 将 .pdf 转换为 .txt

转载 作者:行者123 更新时间:2023-12-04 11:03:56 27 4
gpt4 key购买 nike

Stackoverflow 上的 is not new 问题,但我很确定我遗漏了一些明显的东西。

我正在尝试将一些 .pdf 文件转换为 .txt 文件,以便挖掘它们的文本。我的方法基于这个 excellent script 。 .pdf 文件中的文本不是由图像组成的,因此不需要 OCR。

# Load tm package
library(tm)

# The folder containing my PDFs
dest <- "./pdfs"

# Correctly installed xpdf from http://www.foolabs.com/xpdf/download.html

file.exists(Sys.which(c("pdfinfo", "pdftotext")))
[1] TRUE TRUE

# Delete white spaces from pdfs' names
sapply(myfiles, FUN = function(i){
file.rename(from = i, to = paste0(dirname(i), "/", gsub(" ", "", basename(i))))
})

# make a vector of PDF file names
myfiles <- list.files(path = dest, pattern = "pdf", full.names = TRUE)

lapply(myfiles, function(i) system(paste('"C:/Program Files/xpdf/bin64/pdftotext.exe"',
paste0('"', i, '"')), wait = FALSE))

它应该在 dest 文件夹中创建任何 .pdf 文件的 .txt 副本。我检查了 path 的问题,路径中的 white spacesxpdf common installation issues 但没有任何 react 。

这是我正在研究的 repository。如果有用,我可以粘贴 SessionInfo 。提前致谢。

最佳答案

迟到的回答:

但我最近发现,使用当前版本的 tm(0.7-4),如果您安装了 pdftools(install.packages("pdftools")),您可以将 pdf 直接读入语料库。

library(tm)

directory <- getwd() # change this to directory where pdf-files are located

# read the pdfs with readPDF, default engine used is pdftools see ?readPDF for more info
my_corpus <- VCorpus(DirSource(directory, pattern = ".pdf"),
readerControl = list(reader = readPDF))

关于r - 将 .pdf 转换为 .txt,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37867349/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com