r - 如何将具有单列的 R 数据框转换为 tm 的语料库，以便每一行都被视为文档？-6ren

r - 如何将具有单列的 R 数据框转换为 tm 的语料库，以便每一行都被视为文档？

转载作者：行者123 更新时间：2023-12-01 08:18:12

24

4

我想使用tm包的findAssocs命令，但只有在语料库中有多个文档时才有效。相反，我有一个单列数据框，其中每一行都包含来自推文的文本。是否可以将其转换为将每一行作为一个新文档的语料库？

VCorpus (documents: 1, metadata (corpus/indexed): 0/0)
TermDocumentMatrix (terms: 71, documents: 1)

我有 10 行数据，我希望将其转换为

VCorpus (documents: 10, metadata (corpus/indexed): 0/0)
TermDocumentMatrix (terms: 71, documents: 10)

最佳答案

我建议您在继续之前先阅读 tm-vignette。在下面回答您的具体问题。

创建示例数据:

txt <- strsplit("I wanted to use the findAssocs of the tm package. but it works only when there are more than one documents in the corpus. I have a data frame table which has one column and each row has a tweet text. Is it possible to convert the into a corpus which takes each row as a new document?", split=" ")[[1]]
data <- data.frame(text=txt, stringsAsFactors=FALSE)
data[1:5, ]

将您的数据导入“源”，将您的“源”导入“语料库”，然后从您的“语料库”中制作 TDM:

library(tm)
tdm <- TermDocumentMatrix(Corpus(DataframeSource(data)))

show(tdm)
#A term-document matrix (35 terms, 58 documents)
#
#Non-/sparse entries: 43/1987
#Sparsity           : 98%
#Maximal term length: 10 
#Weighting          : term frequency (tf)

str(tdm)
#List of 6
# $ i       : int [1:43] 32 31 28 12 28 21 3 35 20 33 ...
# $ j       : int [1:43] 2 4 5 6 8 10 11 13 14 15 ...
# $ v       : num [1:43] 1 1 1 1 1 1 1 1 1 1 ...
# $ nrow    : int 35
# $ ncol    : int 58
# $ dimnames:List of 2
#  ..$ Terms: chr [1:35] "and" "are" "but" "column" ...
#  ..$ Docs : chr [1:58] "1" "2" "3" "4" ...
# - attr(*, "class")= chr [1:2] "TermDocumentMatrix" "simple_triplet_matrix"
# - attr(*, "Weighting")= chr [1:2] "term frequency" "tf"

关于r - 如何将具有单列的 R 数据框转换为 tm 的语料库，以便每一行都被视为文档？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26711423/

24

4

0

文章推荐： windows-vista - 无法使用 MinGW 编译 - 缺少 libmpc-2.dll

文章推荐： c - 字符串和指针

文章推荐： arrays - typescript 告诉我方法是属性并且不能创建对象

文章推荐： r - 根据列表项的行拆分列表

c++ - 一个 tm 结构中的错误破坏了其他 tm 结构
我偶然发现了这种行为，想知道这是否符合预期(我觉得不对)。我在一个特定的 tm 结构中强加了一个错误，所有其他的都被破坏了。这是代码(精简到最低限度以重现问题) int main() {
R tm 包 tm.plugin.tags 停止工作
我使用 tm.plugin.tags 进行情绪分析: pos=sapply(search.corpus,tm_tag_score,tm_get_tags("Positiv")) neg=sapply(
c++ - 将 UTC tm* 转换为本地化 tm* 的跨平台方式？
这个问题已经困扰我好一分钟了。我正在开发一个用 C++ 编写的程序，我需要能够在两个不同的服务器之间发送以 ISO8601 编码的时间。这里的主要坚持者似乎是 Windows。到目前为止，我已经从
c++ - 如何从 'const tm*' 生成 'const tm&' ？
namespace abc{ class MyClass{ protected: tm structTime; public: const tm&
tm - stemCompletion无法正常工作
我正在使用tm包对修复数据进行文本分析，将数据读取到数据框中，转换为Corpus对象，并应用了各种方法来使用Lower，stipWhitespace，removestopwords等清除数据。取回C
R:TM 包从单列中查找词频
我最近一直在尝试使用 tm 包在 R 中的 data.frame 中的单个列中查找词频。虽然 data.frame 本身有许多基于数字和字符的列，但我只对一个纯文本列感兴趣。虽然我在清理文本本身时没有
R tm 包和西里尔文字
我正在尝试使用 tm 包对俄语文本进行一些文本挖掘，但遇到了一些问题。预处理速度很大程度上取决于编码。 library(tm) rus_txt<-paste(readLines('http://li
r - tm 合并语料库列表
我有一个 URL 列表，我已为其获取 web 内容，并将其包含到 tm 语料库中: library(tm) library(XML) link <- c( "http://www.r-statisti
r - tm 包函数在清理语料库时没有删除引号和连字符
我正在尝试清理语料库，并且使用了典型步骤，如下面的代码: docs?@[\\\]^_ {|}~`。要删除其他符号，例如打印引号或项目符号(或任何其他符号)，请声明您自己的转换函数: removeSpe
R tm removeWords函数不删除单词
我试图从我构建的语料库中删除一些单词，但它似乎不起作用。我首先遍历所有内容并创建一个数据框，按照频率顺序列出我的单词。我使用此列表来识别我不感兴趣的单词，然后尝试创建一个删除单词的新列表。但是，这些词
PDF Tm 运算符
我正在尝试突出显示 PDF 文档中的文本，但我发现了一个带有以下操作数的 Tm 运算符: 0 7.98 -7.98 0 90.8898 715.4183 Tm Tm 运算符应该仅在其操作数上替换文本矩
r - tm 如何与雪互动？
高性能任务 View 指出 tm可以使用 snow 进行并行文本挖掘 (High-Performance and Parallel Computing with R)。然而，我没有找到任何例子来说明如
c - tm 结构对象混淆
如果我这样做的话，我对如何使用 tm 结构对象有点困惑； printf("The current date is %d-%d-%d\n", now.tm_mon, now.tm_mday, now.t
c++ - 复制结构 tm
glibc 版本的 struct tm 有额外的字段 long tm_gmtoff; /* Seconds east of UTC */ const char *tm_zone;
c - 添加延迟到时间格式结构 "tm"
我想在格式结构“tm”中添加秒延迟，所以我运行这段代码: #include #include #include #include #define SEC_PER_DAY 86400 #define S
javascript - 在选择标签下的选择下拉选项中显示商标 (TM)
我有以下带有几个选项的简单选择标签，我想在标题上方的选项值中添加商标 (TM)，但是标签没有改变任何东西。在选项的上方位置显示 TM 的其他方法是什么？ Option Value TM
c++ - 填充结构 tm
标准 C/C++ 库中是否有可填充 struct tm 的内容？更具体地说明我的问题:我希望能够提供一个日期并从中填充 struct tm(例如:1-1-2000 00:00:01。)对于大多数字段
c++ - 在类中初始化静态结构 tm
我想将 tm 结构用作类中的静态变量。花了一整天的时间阅读和尝试，但仍然无法正常工作:(如果有人能指出我做错了什么，我将不胜感激在我的类里面，在 Public 下，我将其声明为: static st
c - tm 使用示例
你能举一个使用 tm 的例子吗(我不知道如何初始化那个 struct)，当前日期是以这种格式写的年/月/日? 最佳答案如何使用tm结构调用 time() 以获取当前日期/时间(自 1970 年
c - 如何将以微秒为单位的字符串转换为C中的struct tm？
我有一个字符串，其中包含自纪元以来的微秒数。如何将其转换为时间结构？ #include #include #include int main () { struct tm tm;

首页

博学

6Ren·AI

商城

r - 如何将具有单列的 R 数据框转换为 tm 的语料库，以便每一行都被视为文档？