scala - Spark 斯卡拉 : Filter RDD if the record of the RDD doesn't exist in another RDD-6ren

scala - Spark 斯卡拉 : Filter RDD if the record of the RDD doesn't exist in another RDD

转载作者：行者123 更新时间：2023-12-04 20:37:59

27

4

我有一个结构如下的RDD:

((user_id,item_id,rating))

让我们将此 RDD 称为训练

然后还有另一个具有相同结构的rdd:

((user_id,item_id,rating))

这个 rdd 作为测试

我想确保测试中的数据不会出现在每个用户的训练中。所以让我们说

train = {u1,item2: u1,item4 : u1,item3} test={u1,item2:u1, item5}

我想确保从 u1 训练数据中删除 item2。

所以我开始做的是 groupBy both rdd(s) (user_id, item_id)

 val groupedTrainData = trainData.groupBy(x => (x._1, x._2))

但我觉得这不是要走的路。

最佳答案

您需要 PairRDDFunctions.subtractByKey :

def cleanTrain(
  train: RDD[((user, item), rating)],
  test: RDD[((user, item), rating)]) =
  train.subtractByKey(test)

关于scala - Spark 斯卡拉 : Filter RDD if the record of the RDD doesn't exist in another RDD，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31796963/

27

4

0

文章推荐： vba - 宏卡住单词

文章推荐： ruby-on-rails - 删除嵌套属性不起作用

文章推荐： java - Spring单例初始化完成后如何运行方法？

文章推荐： java - Play Framework - 值登录不是 controllers.Application 的成员

swift - Xcode 10 错误 - "Profile doesn' t 包括 aps 环境授权“& "Profile doesn' t 支持推送通知”
我正在尝试将我的 xcode 应用程序存档到 Itunes，但我得到了 following errors : 1.) “配置文件不支持推送通知。” 2.) “配置文件不包含 aps-environme
c# - "Doesn' 尝试连接到域时没有访问域所需的权限
我正在尝试为我们的组织构建一个 Web 应用程序，它将使用我们的 O365 进行身份验证。在尝试使用管理员帐户连接到域时，我遇到了这个错误，其中提到 admin..onmicrosoft.com(全局
.net - “The project doesn' 不知道如何运行配置文件示例。WinUI”
当我尝试构建 MUAI 项目时，它给出错误“该项目不知道如何运行配置文件 sample.WinUI”。项目已构建但无法运行。我使用的是 Visual Studio 2022 Preview(17.0
F# 查询 "doesn' t 包含”
当某项包含在列表中时，有一个查询要搜索，但当某项不在列表中时，则没有查询。此查询查找在给定列表 cdiffnums 中没有 ContactNum 的 customer 对象。我该怎么做才能仅返回此列
perl - 重命名期间是否有文件 "doesn' t 存在”？
我们有一个黑盒第三方 Java 程序，可以从某个位置获取输入文件并制作 PDF。每次输入时，它都会将 list 文件放在同一位置，这需要我们以受控方式提供文件。 list (或 .xen/.que)是
jQuery: "Doesn' t 有“选择器？
我看到这个has选择器，hasnt 选择器在哪里？我想查找不包含图像的表格。最佳答案类似$("table:not(:has(img))")？关于jQuery: "Doesn' t 有“选择器？，
JavaScript 错误， "object doesn' 不支持此属性或方法”？
为什么？这让我发疯？？？ $(document).ready(function () { $('#slides1').bxSlider({ prev_
Kubernetes "the server doesn' t 有一个资源类型部署”
我是 kubernetes 的新手。我无法使用 kubectl 进行部署，但我可以在 kubernetes 仪表板上看到所有部署。我该如何解决这个问题？ user@master:~$ kubectl
javascript - img onClick ""doesn' 工作吗？
这个问题已经有答案了: What do querySelectorAll and getElementsBy* methods return? (12 个回答) 已关闭 6 年前。 HTML JS
Javascript，迭代两个对象数组并将一个项目从一个数组添加到另一个数组 "if it doesn' t 存在”
我有两个数组，一个包含字符串值，另一个包含整数值，尽管这可能很愚蠢，但我陷入了困境，我需要一点帮助，我想遍历两者，如果 arr1 包含 arr2 中不存在的项目，它将被推送到 newArray 这是我
mysql - "Table doesn' t存在”问题
我一直在尝试为我的网站安装一个 PHP 脚本，设置所有内容，通过脚本附带的 phpMyAdmin 导入 SQL 文件，但我面对的是一个空白页面，错误如下所示: File /home/user/publ
php - mysqli_error "doesn' t 有默认值”
我正在努力将站点的服务器从 PHP 5.2.17 升级到 5.5，以使其在未来的升级中保持新鲜，并安装其他需要 PHP 5.4+ 的软件。数据库有一个我正在测试的表，其中有许多列在初始 INSERT
c# - "Object doesn' t 在IE8和IE7中支持这个属性或方法
我一直收到这个错误: Object doesn't support this property or method 每当我在 IE7 和 IE8 中运行我的代码时。这是它停止的代码: _renderU
javascript - 匹配 "doesn' t"包含单词的文本的正则表达式？
我想使用正则表达式排除某些单词。输入文本: aaa1234 cc bbb1234 c1234 cc dd aacc cccc ccadf cc 输出文本: aaa1234 bbb1234 c1234
postgresql - 临时列 "doesn' t 存在吗？”
我有一个名为 adjust_status 的存储函数和一个包含 status 列的表 users。 select adjust_status(status) as adjusted_status
mysql - "Field doesn' t有一个默认值”没有严格模式
我有一个表，其中有一列由插入前触发器填充，该列设置为 NOT NULL 并且没有DEFAULT VALUE。当我执行 INSERT TABLE 而不传递此列时，我收到错误:1364 - Field
javascript - 将值格式化为 "doesn' t work'
这个问题已经有答案了: Modify the value of each textfield based on original value using jQuery (3 个回答) 已关闭去年。使
css - “@keyframe doesn' t级联”是什么意思？
我正在阅读 this , 它说 @keyframes rules don't cascade, so animations never derive keyframes from more than
ssl - "hostname doesn' t匹配“在PythonAnywhere中使用请求时
编辑:我解决了问题，请参阅答案中的链接。我正在使用 XMLHttpRequest AJAX API 将来自不同网站的数据发送到我们在 PythonAnywhere 中的服务器。奇怪的事情发生了:根据
c++ - "Windows doesn' t 支持正确的动态链接是什么意思？”
我已经阅读了 Linux 调用 dlopen() 和 dlsym() 的文档，它们分别打开一个动态库并在库中加载一个符号。这些调用似乎等同于 Windows 的 LoadLibrary() 和 Ge

首页

博学

6Ren·AI

商城

scala - Spark 斯卡拉 : Filter RDD if the record of the RDD doesn't exist in another RDD