r - 计算两个字符串中的常见单词-6ren

r - 计算两个字符串中的常见单词

转载作者：行者123 更新时间：2023-12-04 09:35:22

25

4

我有两个字符串:

a <- "Roy lives in Japan and travels to Africa"
b <- "Roy travels Africa with this wife"

我正在寻找这些字符串之间常用单词的计数。

答案应该是3。

“罗伊”

“旅行”

《非洲》

作为常用词

这是我尝试过的:

stra <- as.data.frame(t(read.table(textConnection(a), sep = " ")))
strb <- as.data.frame(t(read.table(textConnection(b), sep = " ")))

取唯一以避免重复计数

stra_unique <-as.data.frame(unique(stra$V1))
strb_unique <- as.data.frame(unique(strb$V1))
colnames(stra_unique) <- c("V1")
colnames(strb_unique) <- c("V1")

common_words <-length(merge(stra_unique,strb_unique, by = "V1")$V1)

对于包含 2000 多个和 1200 个字符串的数据集，我需要这样做。
我必须评估字符串的总次数是 2000 X 1200。任何快速方法，不使用循环。

最佳答案

您可以使用 strsplit 和 intersect 来自 base图书馆:

> a <- "Roy lives in Japan and travels to Africa"
> b <- "Roy travels Africa with this wife"
> a_split <- unlist(strsplit(a, sep=" "))
> b_split <- unlist(strsplit(b, sep=" "))
> length(intersect(a_split, b_split))
[1] 3

关于r - 计算两个字符串中的常见单词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25930550/

25

4

0

文章推荐： r - 每个观察的百分位数 w/r/t 分组变量

文章推荐： scala - Scala中的"=>"运算符

文章推荐： r - 线性混合模型 - 矩阵秩亏

SQl 语句(常见)
新建表： create table [表名] ( [自动编号字段] int IDENTITY (1,1)&nbs
iphone - 常见 UI 字符串的本地化
我的文件中有正在本地化的字符串。其中许多是常见的，并且已经在整个 iOS 中使用。例如。 “保存”、“加载”、“返回”、“收藏夹”、“拍照”。为了与其他应用程序和内置应用程序提供一致的用户体验，是否有
qt - 常见 Qt 问题
我已经学习了 Qt 的基础知识，现在对这个漂亮的库的深度感兴趣。请帮助我理解: 所有类都是从QObject派生的吗？为什么可以在QWidget(和派生类)上绘画？ return app.exec()
javascript - 常见 JS - 是否可以要求一个函数
我在 webpack 中设置了一个自调用函数，并使用常见的 JS 来需要一些包: (function() { var $ = require("jquery"); //...my functi
java - 常见 nlp 任务的效率
我正在尝试制作一个大量使用词性标记的应用程序。但是 nltk 的 pos 标记功能对我来说似乎不符合标准 - 例如: import nltk text = "Obama delivers his fi
php - 常见 MYSQL 查询的缓存
有没有办法处理发送到 MySQL 的常见查询以防止不必要的带宽使用？最佳答案选项是: 使用MySQL缓存查询好:全自动差:仍然需要访问数据库服务器；有一次缓存让我在一个项目中失望，花了很长时间
c# - 常见 Linq 表达式的示例
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
mobile - AdSense - 移动广告未在某些(常见)设备上显示
关闭。这个问题需要debugging details .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve this questio
java - 常见 io copyUrlToFile 不起作用
我正在尝试调用返回 csv 文件的网络服务。因此，我调用的每个 URL 都有一个后缀，它是一个字符串，表示要生成哪个 csv。然后我想将此 csv 保存到文件中。有很多要生成，所以我从多个线程调用此类
android - 常见/典型 Android 设备上的触摸点数量
流行手机型号支持的典型触摸点数量是多少？我在基础研究中看到低至 2 和高至 5，但我希望能够将其映射到实际手机和更好的限制! 最佳答案两部手机的触控点数据: Galaxy S 5 LG
Web 堆栈 - 常见 Web 堆栈/环境的列表
出于好奇 - 我知道有 LAMP - Linux、Apache、MySQL 和 PHP。但是还有哪些其他 Web 堆栈替代方案的缩写呢？像 LAMR - Linux、Apache、MySQL Ruby
java - 无法连接到 SFTP 服务器 Apache 常见
我写了一个java代码(使用apache common vfs2)来上传文件到SFTP服务器。最近，我在我的服务器上引入了 PGP 安全性。现在，java 代码无法连接到该服务器。与 FileZill
c++ - 在 OpenGL 中绘制形状的标准(常见)方法是什么？
由于 GLU 被认为对于现代 OpenGL (3.1+) 来说已经过时，那么使用 C/C++ 在 OpenGL 中绘制基本形状(例如椭圆或弧线/饼图)的方法是什么？令人难以置信的是，在 OpenGL
ios - 常见 iOS 应用程序的 URL 方案
我想知道是否有最流行的 iOS 应用程序的自定义 URL 方案列表，例如 Keynote、Numbers、Pages、Evernote 等。我还想知道这些应用程序使用什么参数网址。我需要这个的原因是
c++ - 常见 Linux 路径名在 Android 上对应的目录是什么？
我正在使用 NDK r10d 移植 C++ myToll Linux 应用程序以在 Android 上运行。 (请注意，这不是带有 apk 的 Android 应用程序，而是从 shell 运行的实用
php - 常见 PHP 服务器应用程序的 UML 部署图
假设您想要使用 UML 2 部署图为在该领域没有太多知识的人可视化一个常见的 PHP 服务器应用程序。这样一个通用的应用程序可能有三个设备节点(数据库服务器、Web 服务器和客户端)和四个执行环境节点
apache - hadoop mapreduce 常见 friend reducer 溢出
我正在尝试运行以下代码，以找到两个人之间的共同 friend 。输入如下 A : B C D B : A C D E C : A B D E D : A B C E E : B C D 我无法在输出文
git - 在 Git 中跟踪 Gitolite(常见)钩子(Hook)
我在 Gitolite 的 manual 中找到的唯一东西在钩子(Hook)上，是: If you want to add your own hook, it's easy as long as it
amazon-web-services - 常见 AWS 故障 - 处理 AZ 故障转移
具体来说，我有一个问题，在 AWS 环境中组织 AZ 故障转移的推荐方法是什么。此外，最好了解典型的 AWS 故障以组织应用程序 HA(高可用性)。因此，应用程序架构(AWS 服务使用)如下: 它或
java - 常见 spring NoRepositoryBean 基接口(interface)上的 PreAuthorize 问题
我正在尝试编写一个通用的 SecurePagingAndSorting 存储库，它将检查 CRUD 操作的安全性，以节省在所有 JPA 存储库中重复相同的 PreAuthorize(使用不同的权限)。

首页

博学

6Ren·AI

商城

r - 计算两个字符串中的常见单词