r - tidytext 从文件夹中读取文件-6ren

r - tidytext 从文件夹中读取文件

转载作者：行者123 更新时间：2023-12-04 12:18:16

25

4

我正在尝试将一个 pdf 文件文件夹读入 R 中的数据帧。我可以使用 pdftools 读取单个 pdf 文件。图书馆和 pdf_text(filepath) .

理想情况下，我可以获取一系列 pdf 的作者和标题，然后将这些 pdf 推送到具有这些列的数据框中，以便我可以使用基本的 tidytext文本上的函数。

对于现在的单个文件，我可以使用:

library(pdftools)
library(tidytext)
library(dplyr)
txt <- pdf_text("filpath")
txt <- data_frame(txt)
txt %>%
     unnest_tokens(word, txt)

在这里，我有一个带有单个单词的数据框。我想进入一个数据框，在那里我解压了文章，包括标题和作者列。

最佳答案

要查找工作目录中的所有 PDF，您可以使用 list.files有一个论点:

all_pdfs <- list.files(pattern = ".pdf$")

all_pdfs对象将是一个包含所有文件名的字符向量。

然后，您可以设置一个管道来读取所有 PDF 并使用带有 map 的 tidytext 取消嵌套它们。来自 purrr 的函数。您可以使用 mutate()内 map()如果您愿意，可以用文件名注释每一行。

library(pdftools)
library(tidyverse)
library(tidytext)

map_df(all_pdfs, ~ data_frame(txt = pdf_text(.x)) %>%
    mutate(filename = .x) %>%
    unnest_tokens(word, txt))

您需要做一些更有趣的工作来获得标题和作者列，具体取决于您在何处获得该信息。也许在 txt 上使用正则表达式或 filename在取消嵌套之前？

关于r - tidytext 从文件夹中读取文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44254493/

25

4

0

文章推荐： scala - 将压缩在 tar.gz 存档中的多个文件读入 Spark

文章推荐： reactjs - 将带有嵌套类的 css 转换为样式组件问题

文章推荐： sublimetext3 - 如何在Sublime Text编辑器中格式化代码

使用 tidytext 删除停用词
使用 tidytext，我有这段代码: data(stop_words) tidy_documents % anti_join(stop_words) 我希望它使用包中内置的停用词将名为
r - tidytext 从文件夹中读取文件
我正在尝试将一个 pdf 文件文件夹读入 R 中的数据帧。我可以使用 pdftools 读取单个 pdf 文件。图书馆和 pdf_text(filepath) . 理想情况下，我可以获取一系列 pdf
r - TidyText 聚类
我想使用 R 和 tidytext 对相似的单词进行聚类包裹。我已经创建了我的 token ，现在想将其转换为矩阵以对其进行聚类。我想尝试一些 token 技术，看看哪种技术提供了最紧凑的集群。我
r - tidytext——如何做共性和对比词云
让我从 Introduction to tidytext @ CRAN 中的以下完全工作的代码开始 library(janeaustenr) library(dplyr) library(string
使用 tidytext 删除包含停用词的 ngram
更新:感谢您的投入。我重写了这个问题并添加了一个更好的例子来突出我的第一个例子中没有涵盖的隐含要求。问题我要找一个将军tidy删除包含停用词的 ngram 的解决方案。简而言之，ngram 是由空
r - tidytext::unnest_tokens 是否适用于西类牙字符？
我正在尝试将 unnest_tokens 与西类牙语文本一起使用。它可以很好地处理 unigrams，但会破坏 bigrams 的特殊字符。代码在 Linux 上运行良好。我添加了一些关于语言环境的
r - 西类牙语的 tidytext R - 还有其他选择吗？
我正在从 twitter 进行情感分析，但我的推文是西类牙语的，所以我不能使用 tidytext 对单词进行分类。有谁知道是否有类似的西类牙语套餐？最佳答案我在非英语文本挖掘中遇到了同样的问题。我
R Tidytext 和 unnest_tokens 错误
R 非常新，并且已经开始使用 tidytext 包。我正在尝试使用参数输入 unnest_tokens功能，所以我可以做多列分析。所以而不是这个 library(janeaustenr) libra
R tidytext stop_words 没有从 gutenbergr 下载中一致地过滤
这是一个奇怪的谜题。我从 gutenbergr 下载了 2 篇文章 - 爱丽丝梦游仙境和尤利西斯。停用词从 Alice 中消失，但它们仍在 Ulysses 中。即使将 anti_join 替换为过滤器
r - r tidytext 中的标记化，以 & 符号保留
我目前正在使用 unnest_tokens()来自 tidytext 的函数包裹。它完全按照我的需要工作，但是，它从文本中删除了与号 (&)。我希望它不要那样做，但保持其他一切不变。例如: libr
R:与使用 tidytext::unnest_tokens 聚合相反。多变量和大写
跟进 this question ，我想执行与 aggregate (或下面 MWE 中的 data.table 等效)相反的任务，以便我获得 df1再次从 df2 开始。这里的任务是从 df2 重
r - 在 R 中的 tidytext 中使用 unnest_tokens() 保留标点符号
我正在使用 tidytext包裹在 R做n-gram分析。由于我分析推文，我想保留 @ 和 # 以捕获提及、转发和主题标签。然而，unnest_tokens功能自动删除所有标点符号并将文本转换为小写
r - 使用 tidytext 和 broom 但没有找到 LDA_VEM 的 tidier
tidytext 书有主题模型的 tidier 示例: library(tidyverse) library(tidytext) library(topicmodels) library(broom)
r - tidytext、Quanteda 和 tm 返回不同的 tf-idf 分数
我正在尝试研究 tf-idf 加权语料库(我希望 tf 是按文档划分的比例，而不是简单的计数)。我希望所有经典文本挖掘库都会返回相同的值，但我得到了不同的值。我的代码中是否存在错误(例如，我是否需要转

首页

博学

6Ren·AI

商城

r - tidytext 从文件夹中读取文件