- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我有一个由(sensor_id, timestamp, data)
组成的数据集(sensor_id
是物联网设备的ID,时间戳是UNIX 时间,数据是他们当时的输出)。表上没有主键,但每一行都是唯一的。
我需要找到所有对 sensor_id
s1
和 s2
使得这两个传感器至少有 n
(n=50
) 个条目 (timestamp, data)
在它们之间是共同的,即在 n
不同的场合,它们在相同的时间戳发出相同的数据.
为了了解数据量级,我有 10B 行和约 5000 万个不同的 sensor_ids
,我相信大约有约 500 万对传感器 ID 在同一时间戳发出相同数据至少 50 次。
在 Spark 中执行此操作的最佳方法是什么?我尝试了各种方法(按 (timestamp, data)
分组和/或自连接),但它们的复杂性非常昂贵。
最佳答案
这是一个伪代码,从 Spark 中抽象出来。您可以先对数据集进行排序:
select id, timestamp, data order by timestamp, data, id
示例 10 行:
s1,100,a #1
s2,100,a #2
s3,100,a #3
s4,100,b #4
s1,101,a #5
s3,101,b #6
s4,101,b #7
s2,101,a #8
s3,102,b #9
s4,102,b #10
现在从上到下迭代,只要时间戳和数据与上一个条目相同,就构建一个条目列表。
在我们的示例中,第 1-3 行构成了这样一个列表,因此我们已经看到了一些潜在的对:
s1, s2
s1, s3
s2, s3
第 4 行只是带有 (100,b) 的单个条目,我们可以跳过它。第 5 行只有一个带有 (101,a) 的条目,我们可以跳过它。
第 6 行和第 7 行是新的一对:
s3, s4
#9 和#10 也是一对
将它们放在一起可以很容易地数出对数:
s1, s2
s1, s3
s2, s3
s3, s4
s3, s4
这种方法的好处是,如果你可以对文件进行排序,你可以将排序后的数据集分成多个较小的 block ( block 应该在组边界上分割——即#1、2、3 应该在一个 block 中) ,计算对,并加入最终结果作为最后一步。
希望对您有所帮助。
关于algorithm - Spark : Find pairs having at least n common attributes?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42741688/
我正在学习使用 STL 的排序函数,方法是将它用于一些复杂的对 vector 。 我有以下 vector : vector > > > > 我需要先根据对中的第一个整数对元素进行排序,如果发现有 2
我想初始化: pair>,vector>> pvp; 所以对于所有的我: pvp.first[i].first = true; 和 pvp.second[i].first = false; 我知道您可
那为什么我们能实例化Pair却不能实例化Pair Pair p=new Pair(); 对比 Pair p=new Pair(); 我知道 意思是未知类型 --> 但不是 意思是一样的---> 有
这个问题在这里已经有了答案: How to have an unordered_map where the value type is the class it's in? (1 个回答) `std
我正在编写一个代码来处理warehouse[item[batch, qty]]的组合,然后将基于[batch, qty]的batch与qty的总和分组。我的代码是: package main impo
我想知道最好的类 java 容器是什么 > 我有一个作为键的 object1 以及一个 t1 和 t2。 我的类具有以下属性: public class Patient implements Exte
所以我有一些使用 Java 8 流的代码,而且它可以工作。它做的正是我需要它做的,而且清晰易读(这在函数式编程中很少见)。在子例程结束时,代码遍历自定义对类型的列表: // All names Hun
我正在声明一个字符串映射到一对对,如下所示: std::map, std::pair>> reference; 我将其初始化为: reference.insert
例如,镜像 pair 至 pair ,我可以像这样创建一个模板函数: template void mirror(const AB& ab,BA& ba){ ba.first=ab.secon
我正在使用 PyZMQ 创建一个简单的 PAIR/PAIR 通信原型(prototype)消息传递模式。 配对服务器 import zmq import random import sys impor
我正在尝试习惯 Kotlin 中的习语和快捷方式,我想知道是否有任何方法可以做到这一点。 val pairList = listOf(Pair(1, 2), Pair(5, 10), Pair(12,
我定义的 map 是这样的 map > hmap; 如果有一个pair(2,pair(3,4))如何得到2 3 4个值,itr->first, itr->第二个不工作 最佳答案 If there is
我希望能够对以下 vector 进行排序 -vector>> 基于 pair 的第一个元素,如果它们相等,则根据它们的第二个元素对它们进行排序,我如何使用 STL 在 C++ 中做到这一点构建? 这种
通过 PHP_PDO: fetchAssoc echo 从 MySql SELECT 查询得到一个 $.getJSON 结果使用 json_encode() 编辑,在 firebug 控制台中的输出如
假设我有以下功能: (defun f (v1 v2) ...) 我想简化以下代码: (lambda (pair) (apply #'f pair)) 此处的目标是创建一个函数,该函数接受两个值的列表并
对不起,我真的不知道怎么写这个标题。我可以想到这样做的代价高昂的方法,但我想看看是否有人可以指出一个优雅的解决方案,这里是: 我有很多成对关联的元素; 每个元素都有一个与其自身关联的数值,该数值表示它
我有一个使用以下方法用 Java 编写的 PreferencesManager: public void insert(Pair keyValue, boolean async) { 我正尝试从 k
这是 assigning-of-unordered-map-to-pair-of-objects 的后续问题.这是一个关于编译器错误解释的问题(而不是一个重复的问题,因为该问题已经得到了完整的回答)。
这是我的 map : map, pair > matchMap; 这是函数: void Schedule::studentSchedule() { string s, c; cout
#include #include #include using namespace std; int main() { map,pair> items; items.inser
我是一名优秀的程序员,十分优秀!