gpt4 book ai didi

r - 文本挖掘 pdf 文件/词频问题

转载 作者:行者123 更新时间:2023-12-03 12:46:02 29 4
gpt4 key购买 nike

我正在尝试挖掘具有丰富 pdf 编码和图表的文章的 pdf。我注意到,当我挖掘一些 pdf 文档时,我得到的高频词是 phi、taeoe、toe、sigma、gamma 等。它适用于一些 pdf 文档,但我得到的是这些随机的希腊字母。这是字符编码的问题吗? (顺便说一句,所有文件都是英文的)。有什么建议么?

# Here is the link to pdf file for testing
# www.sciencedirect.com/science/article/pii/S0164121212000532
library(tm)
uri <- c("2012.pdf")
if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) {
pdf <- readPDF(control = list(text = "-layout"))(elem = list(uri = uri),
language = "en",
id = "id1")
content(pdf)[1:4]
}


docs<- Corpus(URISource(uri, mode = ""),
readerControl = list(reader = readPDF(engine = "ghostscript")))
summary(docs)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords("english"))

library(SnowballC)
docs <- tm_map(docs, stemDocument)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, PlainTextDocument)

dtm <- DocumentTermMatrix(docs)
tdm <- TermDocumentMatrix(docs)
freq <- colSums(as.matrix(dtm))
length(freq)
ord <- order(freq)
dtms <- removeSparseTerms(dtm, 0.1)
freq[head(ord)]
freq[tail(ord)]

最佳答案

我认为 ghostscript 在这里制造了所有的麻烦。假设 pdfinfopdftotext 已正确安装,此代码可以正常工作而不会生成您提到的奇怪单词:

library(tm)
uri <- c("2012.pdf")
pdf <- readPDF(control = list(text = "-layout"))(elem = list(uri = uri),
language = "en",
id = "id1")
docs <- Corpus(VectorSource(pdf$content))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, removePunctuation)
library(SnowballC)
docs <- tm_map(docs, stemDocument)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, PlainTextDocument)
dtm <- DocumentTermMatrix(docs)
tdm <- TermDocumentMatrix(docs)
freq <- colSums(as.matrix(dtm))

我们可以可视化 your pdf file 中最常用词的结果用词云:

library(wordcloud)
wordcloud(docs, max.words=80, random.order=FALSE, scale= c(3, 0.5), colors=brewer.pal(8,"Dark2"))

enter image description here

显然这个结果并不完美;主要是因为词干提取几乎从未达到 100% 可靠的结果(例如,我们仍然将“问题”和“问题”作为单独的词;或“方法”和“方法”)。我不知道 R 中有任何可靠的词干提取算法,尽管 SnowballC 做得相当不错。

关于r - 文本挖掘 pdf 文件/词频问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32478685/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com