python - 谁能对Spark中的 `combineByKey`给出一个明确的解释？-6ren

python - 谁能对Spark中的 `combineByKey`给出一个明确的解释？

转载作者：太空狗更新时间：2023-10-30 00:39:30

24

4

我正在学习spark，但是我无法理解combineByKey这个函数。

>>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] )
>>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : c1+c2).collect()

输出是:

[('A', '1_2_'), ('C', '1_'), ('B', '1_2_')]

首先，我很困惑:第二步 lambda c, v : c+"@"+v 中的 @ 在哪里？我无法从结果中找到 @。

其次，我阅读了combineByKey的函数描述，但我对算法流程感到困惑。

最佳答案

groupByKey 调用不会尝试合并/合并值，因此这是一个开销很大的操作。

因此 combineByKey 调用就是这样一种优化。当使用 combineByKey 时，值在每个分区合并为一个值，然后每个分区值合并为一个值。值得注意的是，组合值的类型不必与原始值的类型匹配，而且通常情况下不会。 combineByKey 函数接受 3 个函数作为参数:

创建组合器的函数。在 aggregateByKey 函数中，第一个参数只是一个初始零值。在 combineByKey 中，我们提供了一个函数，它将接受当前值作为参数并返回将与其他值合并的新值。
第二个函数是一个合并函数，它获取一个值并将其合并/组合到之前收集的值中。
第三个函数将合并后的值组合在一起。基本上，此函数采用在分区级别生成的新值并将它们组合起来，直到我们最终得到一个奇异值。

换句话说，要理解 combineByKey，思考它如何处理它所处理的每个元素是很有用的。当 combineByKey 遍历分区中的元素时，每个元素要么有一个以前没有见过的键，要么有与前一个元素相同的键。

如果它是一个新元素，combineByKey 使用我们提供的函数，称为 createCombiner()，为该键上的累加器创建初始值。重要的是要注意，这发生在第一次在每个分区中找到键时，而不是仅在第一次在 RDD 中找到键时。

如果它是我们之前在处理该分区时看到的值，它将改为使用提供的函数 mergeValue()，该键的累加器的当前值和新值.

由于每个分区都是独立处理的，我们可以为同一个键设置多个累加器。当我们合并每个分区的结果时，如果两个或多个分区具有相同键的累加器，我们将使用用户提供的 mergeCombiners() 函数合并累加器。

引用资料:

学习星火 - Chapter 4 .
Using combineByKey in Apache-Spark博客条目。

关于python - 谁能对Spark中的 `combineByKey`给出一个明确的解释？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33937625/

24

4

0

文章推荐： python - matplotlib，在图例标签上包含多个已定义变量

文章推荐： c# - 安装服务到服务器 2012

文章推荐： c# - 将列表中的所有值复制/克隆到 C# 中的另一个列表

文章推荐： c# - LINQ 获取所有继承人的 child

明确 Windows 中的权限
我在 linux 上工作。我对windows没有太多想法。 windows中文件的权限是如何组织的？我们在unix中是否有像chmod这样的api来更改权限？最佳答案对于 Windows，有一个名
api - 明确 API 的含义
应用程序编程接口(interface) (API) 是一组用于访问基于 Web 的软件应用程序的编程指令和标准。如果出现，有人可以向我解释一下吗？谷歌地图或优酷这是API哪个是softwar
android - 如何使隐含的 Intent 明确？
我有两个应用程序，A 和 B，它们使用 android 库 C。B 有一个服务 A 想通过 C 使用，例如在我的库中有一个类试图将它绑定(bind)到服务，
java - 明确 Intent 操作默认值
我正在正常或安全模式下启动相机应用程序，具体取决于使用我的应用程序执行的手势，但一旦用户选择应用程序并点击始终，则没有选项可以更改默认值，即使是从 Android 的设置菜单中也是如此. camera
python:我可以在不(明确)使用整数索引的情况下获得稀疏矩阵表示吗？
我有一个数据集，本质上是一个稀疏二进制矩阵，表示两个集合的元素之间的关系。例如，让第一组是人(用他们的名字表示)，例如像这样的东西: people = set(['john','jane','mike
让你的python代码更加pythonic(简练、明确、优雅)
何为pythonic? pythonic如果翻译成中文的话就是很python。很+名词结构的用法在中国不少，比如：很娘，很国足，很CCTV等等。我的理解为，很+名词表达了一种特殊和强调的意味。
prolog - 明确 Prolog 目标的 "deterministic success"
某些 Prolog 目标的确定性成功问题已经一次又一次地出现在 - 至少 - 以下问题: Reification of term equality/inequality Intersection an
c# - DateTime.TryParse 可以(明确)识别哪些格式？
我指的是 DateTime.TryParse(string s, out DateTime result) 重载，它尝试从字符串中解析 DateTime - 没有特定的格式正在指定。我可以从http
《数据资产》专题：《数据资产、数据权属、数据产权》如何估值、明确、保护？
2020 年 04 月 10 日，《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》正式公布，将数据确立为五大生产要素（土地、资本、劳动力以及技术）之
ios - 明确 NSNotification 的 addObserver 函数中 notificationSender 的用途
有人可以解释一下 NSNotification 的 addObserver 函数中 notificationSender 的用途吗？这是 Apple 文档的解释: notificationSende

首页

博学

6Ren·AI

商城

python - 谁能对Spark中的 `combineByKey`给出一个明确的解释？