- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试将一个 pdf 文件文件夹读入 R 中的数据帧。我可以使用 pdftools
读取单个 pdf 文件。图书馆和 pdf_text(filepath)
.
理想情况下,我可以获取一系列 pdf 的作者和标题,然后将这些 pdf 推送到具有这些列的数据框中,以便我可以使用基本的 tidytext
文本上的函数。
对于现在的单个文件,我可以使用:
library(pdftools)
library(tidytext)
library(dplyr)
txt <- pdf_text("filpath")
txt <- data_frame(txt)
txt %>%
unnest_tokens(word, txt)
最佳答案
要查找工作目录中的所有 PDF,您可以使用 list.files
有一个论点:
all_pdfs <- list.files(pattern = ".pdf$")
all_pdfs
对象将是一个包含所有文件名的字符向量。
map
的 tidytext 取消嵌套它们。来自 purrr 的函数。您可以使用
mutate()
内
map()
如果您愿意,可以用文件名注释每一行。
library(pdftools)
library(tidyverse)
library(tidytext)
map_df(all_pdfs, ~ data_frame(txt = pdf_text(.x)) %>%
mutate(filename = .x) %>%
unnest_tokens(word, txt))
txt
上使用正则表达式或
filename
在取消嵌套之前?
关于r - tidytext 从文件夹中读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44254493/
使用 tidytext,我有这段代码: data(stop_words) tidy_documents % anti_join(stop_words) 我希望它使用包中内置的停用词将名为
我正在尝试将一个 pdf 文件文件夹读入 R 中的数据帧。我可以使用 pdftools 读取单个 pdf 文件。图书馆和 pdf_text(filepath) . 理想情况下,我可以获取一系列 pdf
我想使用 R 和 tidytext 对相似的单词进行聚类包裹。 我已经创建了我的 token ,现在想将其转换为矩阵以对其进行聚类。我想尝试一些 token 技术,看看哪种技术提供了最紧凑的集群。 我
让我从 Introduction to tidytext @ CRAN 中的以下完全工作的代码开始 library(janeaustenr) library(dplyr) library(string
更新:感谢您的投入。我重写了这个问题并添加了一个更好的例子来突出我的第一个例子中没有涵盖的隐含要求。 问题 我要找一个将军tidy删除包含停用词的 ngram 的解决方案。简而言之,ngram 是由空
我正在尝试将 unnest_tokens 与西类牙语文本一起使用。它可以很好地处理 unigrams,但会破坏 bigrams 的特殊字符。 代码在 Linux 上运行良好。我添加了一些关于语言环境的
我正在从 twitter 进行情感分析,但我的推文是西类牙语的,所以我不能使用 tidytext 对单词进行分类。有谁知道是否有类似的西类牙语套餐? 最佳答案 我在非英语文本挖掘中遇到了同样的问题。我
R 非常新,并且已经开始使用 tidytext 包。 我正在尝试使用参数输入 unnest_tokens功能,所以我可以做多列分析。所以而不是这个 library(janeaustenr) libra
这是一个奇怪的谜题。我从 gutenbergr 下载了 2 篇文章 - 爱丽丝梦游仙境和尤利西斯。停用词从 Alice 中消失,但它们仍在 Ulysses 中。即使将 anti_join 替换为过滤器
我目前正在使用 unnest_tokens()来自 tidytext 的函数包裹。它完全按照我的需要工作,但是,它从文本中删除了与号 (&)。我希望它不要那样做,但保持其他一切不变。 例如: libr
跟进 this question ,我想执行与 aggregate (或下面 MWE 中的 data.table 等效)相反的任务,以便我获得 df1再次从 df2 开始。 这里的任务是从 df2 重
我正在使用 tidytext包裹在 R做n-gram分析。 由于我分析推文,我想保留 @ 和 # 以捕获提及、转发和主题标签。然而,unnest_tokens功能自动删除所有标点符号并将文本转换为小写
tidytext 书有主题模型的 tidier 示例: library(tidyverse) library(tidytext) library(topicmodels) library(broom)
我正在尝试研究 tf-idf 加权语料库(我希望 tf 是按文档划分的比例,而不是简单的计数)。我希望所有经典文本挖掘库都会返回相同的值,但我得到了不同的值。我的代码中是否存在错误(例如,我是否需要转
我是一名优秀的程序员,十分优秀!