r - 计算r中的单词共现矩阵-6ren

r - 计算r中的单词共现矩阵

转载作者：行者123 更新时间：2023-12-02 09:22:59

24

4

我想计算 R 中的单词共现矩阵。我有以下句子数据框 -

dat <- as.data.frame("The boy is tall.", header = F, stringsAsFactors = F)
dat[2,1] <- c("The girl is short.")
dat[3,1] <- c("The tall boy and the short girl are friends.")

这给了我

The boy is tall.
The girl is short.
The tall boy and the short girl are friends.

我想做的是首先列出所有三个句子中的所有唯一单词，即

The
boy
is
tall
girl
short
and
are
friends

然后我想创建单词共现矩阵，该矩阵计算单词在句子中总共出现的次数，如下所示

       The   boy    is    tall    girl    short    and    are    friends
The     0     2      2      2        2        2      1      1    1
boy     2     0      1      2        1        1      1      1    1
is      2     1      0      2        1        1      0      0    0
tall    2     2      1      0        1        1      1      1    1
etc.

对于所有单词，其中单词不能与其自身同时出现。请注意，在第 3 句中，单词“the”出现了两次，解决方案应该只计算该“the”的共现一次。

有谁知道我该怎么做。我正在处理大约 3000 个句子的数据框。

最佳答案

library(tm)
library(dplyr)
dat      <- as.data.frame("The boy is tall.", header = F, stringsAsFactors = F)
dat[2,1] <- c("The girl is short.")
dat[3,1] <- c("The tall boy and the short girl are friends.")

ds  <- Corpus(DataframeSource(dat))
dtm <- DocumentTermMatrix(ds, control=list(wordLengths=c(1,Inf)))

X         <- inspect(dtm)
out       <- crossprod(X)  # Same as: t(X) %*% X
diag(out) <- 0             # rm own-word occurences
out

        Terms
Terms    boy friend girl short tall the
  boy      0      1    1     1    2   2
  friend   1      0    1     1    1   1
  girl     1      1    0     2    1   2
  short    1      1    2     0    1   2
  tall     2      1    1     1    0   2
  the      2      1    2     2    2   0

您可能还想删除“the”等停用词，即

ds <- tm_map(ds, stripWhitespace)
ds <- tm_map(ds, removePunctuation)
ds <- tm_map(ds, stemDocument)
ds <- tm_map(ds, removeWords, c("the", stopwords("english")))
ds <- tm_map(ds, removeWords, c("the", stopwords("spanish")))

关于r - 计算r中的单词共现矩阵，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40464014/

24

4

0

文章推荐： perl - 在 perl 中使用指向文件中行的指针

文章推荐： scala - 在 Scala 规范中模拟 future 或

ios - UIScrollview 从第 3 页(共 5 页)开始，而不是从第 1 页(共 5 页)开始
我创建了一个 View (称为 masterView)，CGRect 的 x=160、y=186、width=1600、height=380。该 View 包含 5 个 subview ，每个 sub
r - 如何使用R从具有多列的数据框中计算(共)发生矩阵？
我是 R 的新手，目前正在处理边缘列表形式的协作数据，该列表具有 32 列和大约 200.000 行。我想根据国家之间的相互作用创建一个(共)现矩阵。但是，我想通过对象的总数来计算交互次数。期望结果
Coq:在不丢失信息的情况下破坏(共)归纳假设
考虑以下发展: Require Import Relation RelationClasses. Set Implicit Arguments. CoInductive stream (A : Typ
haskell - (共)递归定义如何在 Haskell 中工作？
我正在玩弄这种语言来开始学习，我对递归定义的工作原理感到困惑。例如，让我们采用三角形数的序列(TN n = sum [1..n]) 提供的解决方案是: triangularNumbers = sca
php - 获取php DateInterval 共 'minutes'
我正在尝试获取“总分钟数”值中的 PHP“DateInterval”值。如何获得？似乎简单格式(“%i 分钟”)不起作用？示例代码如下: $test = new \DateTime("48 hour
javascript - 如果我没有填写所有第一封电子邮件(共 3 封)，则该操作不会执行
我有这个脚本可以通过电子邮件自动发送负载信息: if(confirm('', 'Are you sure?') == true) { // enviar mails var emails = new
SQL COUNT 个，共 COUNT 个
我有一些数据要查询。该表由两列组成 - 一个唯一 ID 和一个值。我想计算每个唯一值出现的次数(这可以通过 COUNT 和 GROUP BY 轻松完成)，但我希望能够对其进行计数。所以，我想看看有多少
Java 代码 PMD 提示圈复杂度，共 20
当我在我的 Java 代码上运行 PMD 时，它显示的错误消息之一是“类 STWeb 具有 20 的圈复杂度”。通常我的java类是这样的 public class STWeb implements
CSS 在页面底部显示第 1 页，共 10 页
尝试在打印时在页面底部显示第 1 页，共 10 页... 第 1 页，共 0 页正在显示，因此计数器(页面)似乎无法正常工作。我正在使用 Chrome，所以 @pages { ... 也不起作用。有
karma-runner - 运行单元测试时执行 0 个错误，共 0 个错误
我在尝试运行单元测试用例时收到 Executed 0 of 0 ERROR 错误。我遵循了针对此问题提到的几个解决方案，但我仍然遇到相同的错误。尝试过: 删除 angular-scenario 文件
wpf - 我们如何提高 WPF 动画(共 100 个)的性能？
我们有一个应用程序，可以在运行时生成大约 100 个动画，并将它们全部添加到单个 Storyboard 中然后播放。问题是动画速度非常慢。进行动画处理的对象是形状和样条线，并且在后端完成大量计算以生成
java - 凯撒加密。数组在索引 73(共 73 个)中超出范围
我正在为数学演示编写凯撒加密代码。今天，我一直在为我的演讲编写代码。早上这个代码就开始工作了。但现在在学校，我遇到了一个异常(exception)，我认为 for 超出了我的符号表的长度。异常(ex
c - 用 C 编写函数，计算给定整数位数的个数，共 2 行
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 6 年前。 Improve th
iphone - 使用搜索栏时，表格仅显示 2 个标签(共 4 个)
我有一张带有 4 个标签的表格，效果很好。当我使用也能正常工作的搜索栏时，表格只显示两个标签: - (void)viewDidLoad { [super viewDidLoad]; NSS
Java iText 第 X 页，共 Y 页
我正在使用 iText 在我的 Java EE 应用程序中生成 PDF 文档。 PDF 文件的编码驻留在 JSP 中。我想在每个页脚中实现以下页面格式， REF:XXXXXXX 第 X 页，共第 Y
java - 如何检查哪个线程(共 10 个)调用了 Singleton 构造函数？
我试图找出(出于好奇)哪个线程实际调用了单例构造函数。好吧，我完全理解每次执行测试程序时线程都会不同，只是想在实用上检查是否相同。我试过 dumpStack() printStackTrace() g
javascript - 更改文本中的值以查看第 1-6 个(共 14 个)
我在工作时遇到了一些麻烦。这可能真的很简单，但我让它变得比可能的更困难。所以我有一个包含 3 组 UL 的 div。代码如下: content here content here c
javascript - Jqgrid 显示第 1 页，共 0 页为空
我有一个问题，当网格为空时，为什么它显示 Page 1 of 0 不能是 Page 1 of 1 或更合理的东西吗？我的代码 var xml=client.responseText;
ios - Crashlytics 安装 - 停留在验证安装第 2 步(共 2 步)
我想将 Crashlytics 添加到我的项目中，我根据 Fabric Mac 应用程序制作了所有内容，现在我停留在 Step 2 of 2 when verifying installation 我
c++ - 第 x 页，共 y 页，使用 QPrinter
我正在使用 qt 从 html 代码生成一个 pdf 文件: QTextDocument *document = new QTextDocument(); document->setHtml(html

首页

博学

6Ren·AI

商城

r - 计算r中的单词共现矩阵