- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在学习spark,但是我无法理解combineByKey
这个函数。
>>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] )
>>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : c1+c2).collect()
输出是:
[('A', '1_2_'), ('C', '1_'), ('B', '1_2_')]
首先,我很困惑:第二步 lambda c, v : c+"@"+v
中的 @
在哪里?我无法从结果中找到 @
。
其次,我阅读了combineByKey
的函数描述,但我对算法流程感到困惑。
最佳答案
groupByKey
调用不会尝试合并/合并值,因此这是一个开销很大的操作。
因此 combineByKey
调用就是这样一种优化。当使用 combineByKey
时,值在每个分区合并为一个值,然后每个分区值合并为一个值。值得注意的是,组合值的类型不必与原始值的类型匹配,而且通常情况下不会。 combineByKey
函数接受 3 个函数作为参数:
创建组合器的函数。在 aggregateByKey
函数中,第一个参数只是一个初始零值。在 combineByKey
中,我们提供了一个函数,它将接受当前值作为参数并返回将与其他值合并的新值。
第二个函数是一个合并函数,它获取一个值并将其合并/组合到之前收集的值中。
第三个函数将合并后的值组合在一起。基本上,此函数采用在分区级别生成的新值并将它们组合起来,直到我们最终得到一个奇异值。
换句话说,要理解 combineByKey
,思考它如何处理它所处理的每个元素是很有用的。当 combineByKey
遍历分区中的元素时,每个元素要么有一个以前没有见过的键,要么有与前一个元素相同的键。
如果它是一个新元素,combineByKey
使用我们提供的函数,称为 createCombiner()
,为该键上的累加器创建初始值。重要的是要注意,这发生在第一次在每个分区中找到键时,而不是仅在第一次在 RDD 中找到键时。
如果它是我们之前在处理该分区时看到的值,它将改为使用提供的函数 mergeValue()
,该键的累加器的当前值和新值.
由于每个分区都是独立处理的,我们可以为同一个键设置多个累加器。当我们合并每个分区的结果时,如果两个或多个分区具有相同键的累加器,我们将使用用户提供的 mergeCombiners()
函数合并累加器。
引用资料:
关于python - 谁能对Spark中的 `combineByKey`给出一个明确的解释?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33937625/
我在 linux 上工作。我对windows没有太多想法。 windows中文件的权限是如何组织的?我们在unix中是否有像chmod这样的api来更改权限? 最佳答案 对于 Windows,有一个名
应用程序编程接口(interface) (API) 是一组用于访问基于 Web 的软件应用程序的编程指令和标准。 如果出现 ,有人可以向我解释一下吗?谷歌地图 或 优酷 这是API哪个是softwar
我有两个应用程序,A 和 B,它们使用 android 库 C。B 有一个服务 A 想通过 C 使用,例如 在我的库中有一个类试图将它绑定(bind)到服务,
我正在正常或安全模式下启动相机应用程序,具体取决于使用我的应用程序执行的手势,但一旦用户选择应用程序并点击始终,则没有选项可以更改默认值,即使是从 Android 的设置菜单中也是如此. camera
我有一个数据集,本质上是一个稀疏二进制矩阵,表示两个集合的元素之间的关系。例如,让第一组是人(用他们的名字表示),例如像这样的东西: people = set(['john','jane','mike
何为pythonic? pythonic如果翻译成中文的话就是很python。很+名词结构的用法在中国不少,比如:很娘,很国足,很CCTV等等。 我的理解为,很+名词表达了一种特殊和强调的意味。
某些 Prolog 目标的确定性成功问题已经一次又一次地出现在 - 至少 - 以下问题: Reification of term equality/inequality Intersection an
我指的是 DateTime.TryParse(string s, out DateTime result) 重载,它尝试从字符串中解析 DateTime - 没有特定的格式正在指定。 我可以从http
2020 年 04 月 10 日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》正式公布,将数据确立为五大生产要素(土地、资本、劳动力以及技术)之
有人可以解释一下 NSNotification 的 addObserver 函数中 notificationSender 的用途吗? 这是 Apple 文档的解释: notificationSende
我是一名优秀的程序员,十分优秀!