algorithm - Spark : Find pairs having at least n common attributes?-6ren

algorithm - Spark : Find pairs having at least n common attributes?

转载作者：塔克拉玛干更新时间：2023-11-03 02:26:45

25

4

我有一个由(sensor_id, timestamp, data) 组成的数据集(sensor_id 是物联网设备的ID，时间戳是UNIX 时间，数据是他们当时的输出)。表上没有主键，但每一行都是唯一的。

我需要找到所有对 sensor_id s1 和 s2 使得这两个传感器至少有 n (n=50) 个条目 (timestamp, data) 在它们之间是共同的，即在 n 不同的场合，它们在相同的时间戳发出相同的数据.

为了了解数据量级，我有 10B 行和约 5000 万个不同的 sensor_ids，我相信大约有约 500 万对传感器 ID 在同一时间戳发出相同数据至少 50 次。

在 Spark 中执行此操作的最佳方法是什么？我尝试了各种方法(按 (timestamp, data) 分组和/或自连接)，但它们的复杂性非常昂贵。

最佳答案

这是一个伪代码，从 Spark 中抽象出来。您可以先对数据集进行排序:

select id, timestamp, data order by timestamp, data, id

示例 10 行:

s1,100,a  #1
s2,100,a  #2
s3,100,a  #3
s4,100,b  #4
s1,101,a  #5
s3,101,b  #6
s4,101,b  #7
s2,101,a  #8
s3,102,b  #9
s4,102,b  #10

现在从上到下迭代，只要时间戳和数据与上一个条目相同，就构建一个条目列表。

在我们的示例中，第 1-3 行构成了这样一个列表，因此我们已经看到了一些潜在的对:

s1, s2
s1, s3
s2, s3

第 4 行只是带有 (100,b) 的单个条目，我们可以跳过它。第 5 行只有一个带有 (101,a) 的条目，我们可以跳过它。

第 6 行和第 7 行是新的一对:

s3, s4

#9 和#10 也是一对

将它们放在一起可以很容易地数出对数:

s1, s2
s1, s3
s2, s3
s3, s4
s3, s4

这种方法的好处是，如果你可以对文件进行排序，你可以将排序后的数据集分成多个较小的 block ( block 应该在组边界上分割——即#1、2、3 应该在一个 block 中) ，计算对，并加入最终结果作为最后一步。

希望对您有所帮助。

关于algorithm - Spark : Find pairs having at least n common attributes?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42741688/

25

4

0

文章推荐： url - 什么时候应该在我的 URL 中使用尾部斜杠？

文章推荐： c++ - 如何等到互斥体解锁？

文章推荐： c++ - 使用 [] 和 [this] 时 lambda 类型的差异

c++ - 如何排序 vector< pair< int , pair>>>>？
我正在学习使用 STL 的排序函数，方法是将它用于一些复杂的对 vector 。我有以下 vector : vector > > > > 我需要先根据对中的第一个整数对元素进行排序，如果发现有 2
c++ - 如何在 C++11 中初始化 pair>,vector>>
我想初始化: pair>,vector>> pvp; 所以对于所有的我: pvp.first[i].first = true; 和 pvp.second[i].first = false; 我知道您可
java - 为什么我们可以实例化 Pair 而不能实例化 Pair
那为什么我们能实例化Pair却不能实例化Pair Pair p=new Pair(); 对比 Pair p=new Pair(); 我知道意思是未知类型 --> 但不是意思是一样的---> 有
c++:pair.h 编译器错误 - pair 的类型不完整
这个问题在这里已经有了答案: How to have an unordered_map where the value type is the class it's in? (1 个回答) `std
go - 不能将append(* pairs，Pairliteral)(Pairs)类型用作* Pairs在分配中
我正在编写一个代码来处理warehouse[item[batch, qty]]的组合，然后将基于[batch, qty]的batch与qty的总和分组。我的代码是: package main impo
java - > 的最佳容器
我想知道最好的类 java 容器是什么 > 我有一个作为键的 object1 以及一个 t1 和 t2。我的类具有以下属性: public class Patient implements Exte
Java 8 : Extracting a pair of arrays out of a Stream
所以我有一些使用 Java 8 流的代码，而且它可以工作。它做的正是我需要它做的，而且清晰易读(这在函数式编程中很少见)。在子例程结束时，代码遍历自定义对类型的列表: // All names Hun
c++ - 如何在另一个 std::pair 中插入一对 std::pair？
我正在声明一个字符串映射到一对对，如下所示: std::map, std::pair>> reference; 我将其初始化为: reference.insert
c++ - 是否有通用的方法来镜像一对(pair 到 pair)？
例如，镜像 pair 至 pair ，我可以像这样创建一个模板函数: template void mirror(const AB& ab,BA& ba){ ba.first=ab.secon
python - PAIR/PAIR 通信原型(prototype)中的 PyZMQ 用户输入()
我正在使用 PyZMQ 创建一个简单的 PAIR/PAIR 通信原型(prototype)消息传递模式。配对服务器 import zmq import random import sys impor
list - Pair 的 kotlin 列表转换为 Pair.first 的列表
我正在尝试习惯 Kotlin 中的习语和快捷方式，我想知道是否有任何方法可以做到这一点。 val pairList = listOf(Pair(1, 2), Pair(5, 10), Pair(12,
c++ - 如何使用迭代器遍历 pair> 形式的映射
我定义的 map 是这样的 map > hmap; 如果有一个pair(2,pair(3,4))如何得到2 3 4个值，itr->first, itr->第二个不工作最佳答案 If there is
c++ - 如何排序 vector >>？
我希望能够对以下 vector 进行排序 -vector>> 基于 pair 的第一个元素，如果它们相等，则根据它们的第二个元素对它们进行排序，我如何使用 STL 在 C++ 中做到这一点构建？这种
php - jQuery/JavaScript : How to get the nth pair in a group of pairs?
通过 PHP_PDO: fetchAssoc echo 从 MySql SELECT 查询得到一个 $.getJSON 结果使用 json_encode() 编辑，在 firebug 控制台中的输出如
lisp - 如何更简单地表达 lisp (lambda (pair) (apply #'f pair))？
假设我有以下功能: (defun f (v1 v2) ...) 我想简化以下代码: (lambda (pair) (apply #'f pair)) 此处的目标是创建一个函数，该函数接受两个值的列表并
algorithm - 确定 "least valuable"pair out of a set of pairs，具体约束
对不起，我真的不知道怎么写这个标题。我可以想到这样做的代价高昂的方法，但我想看看是否有人可以指出一个优雅的解决方案，这里是: 我有很多成对关联的元素；每个元素都有一个与其自身关联的数值，该数值表示它
java - 正在使用 Kotlin Pair 但方法需要 android.util.Pair
我有一个使用以下方法用 Java 编写的 PreferencesManager: public void insert(Pair keyValue, boolean async) { 我正尝试从 k
c++ - 解析编译错误 : no matching function for call to 'std::pair<,>::pair()'
这是 assigning-of-unordered-map-to-pair-of-objects 的后续问题.这是一个关于编译器错误解释的问题(而不是一个重复的问题，因为该问题已经得到了完整的回答)。
c++ - 如何从map,pair>中迭代查找？
这是我的 map : map, pair > matchMap; 这是函数: void Schedule::studentSchedule() { string s, c; cout
c++ - 如何在cout中打印我的 map ，pair >
#include #include #include using namespace std; int main() { map,pair> items; items.inser

首页

博学

6Ren·AI

商城

algorithm - Spark : Find pairs having at least n common attributes?