apache-spark - 令人震惊的 : RDD. zip() 方法-6ren

apache-spark - 令人震惊的 : RDD. zip() 方法

转载作者：行者123 更新时间：2023-12-03 07:27:19

26

4

我只是discovered RDD.zip()方法，我无法想象它的contract是什么可能是。

当然，我明白它的作用。不过，我一直认为

RDD 中的元素顺序是一个毫无意义的概念
分区的数量及其大小是一个实现细节，仅供用户用于性能调整

换句话说，RDD 是一个(多)集合，而不是序列(当然，在 Python 中，人们会得到 AttributeError : 'set' 对象没有属性 'zip')

我上面的理解有什么问题吗？

这种方法背后的基本原理是什么？

在像a.map(f).zip(a)这样的琐碎上下文之外它合法吗？

编辑1:

另一个疯狂的方法是zipWithIndex() ，以及各种 zipPartitions()变体。
请注意first()和 take() 不疯狂，因为它们只是 RDD 的(非随机)样本。
collect()也没关系 - 它只是将 set 转换为完全合法的 sequence。

编辑 2:reply说:

when you compute one RDD from another the order of elements in the new RDD may not correspond to that in the old one.

这似乎意味着即使是微不足道的 a.map(f).zip(a) 也不保证等同于a.map(x => (f(x),x))。当 zip() 结果可重现时是什么情况？

最佳答案

RDD 总是无序的这一说法并不正确。例如，如果 RDD 是 sortBy 操作的结果，则它具有有保证的顺序。 RDD 不是一个集合；它可以包含重复项。分区对于调用者来说并不是不透明的，并且可以控制和查询。许多操作确实会保留分区和顺序，例如map。也就是说，我发现很容易意外违反 zip 所依赖的假设，因为它们有点微妙，但它肯定有一个目的。

关于apache-spark - 令人震惊的 : RDD. zip() 方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29268210/

26

4

0

文章推荐： apache-spark - Apache Spark 不会删除临时目录

文章推荐： apache-spark - Spark 数据帧同一列上的多个聚合操作

文章推荐： intellij-idea - 如何从命令行设置 Spark 示例的主地址

zip - 如何在没有目录的情况下提取 7-zip zip 文件
我有这个命令: 7z e -oD:\Data\ODS_Source\* D:\Data\DATA_DROP\Source.zip 这导致 D:\Data\ODS_Source\Source\. 我需要
zip - 使用 Ionic Zip 将 zip 中的文件夹解压到另一个目录的根目录(不包含 zip 中包含的文件夹)
我正在尝试让 Ionic zip 将 zip 文件内的文件夹提取到指定的根目录中。我的问题是里面的zip文件是“zipfile.zip\some_folder\”。我想将“some_folder”中的
zip - 使用 Ionic Zip 将 zip 中的文件夹解压缩到另一个目录的根目录(没有 zip 中包含的文件夹)
我试图让 Ionic zip 将 zip 文件中的文件夹提取到指定的根目录中。我的问题是里面的 zip 文件是“zipfile.zip\some_folder\”。我想将“some_folder”中的
zip-zip(子函数调用)
题目监听服务器端口，得到题目如下：源码解析主函数主函数中是题目界面的逻辑，对应于用户的选择做出相应的操作，其中需要注意的是选项2，解压操作需要获得root权
zip - zip /7zip压缩差异
我有许多需要分发给用户的zip文件，其中约有130个。每个zip文件都包含许多相似的文本，html，xml和jpg文件。压缩文件总计146兆字节；解压缩后，其内容总计551mb。我想将所有这些文件以
zip - 如何使用 zip.js 将多个文件添加到一个 zip 中？
我正在使用 javascript zip.js图书馆。我到处搜索，但找不到将多个文件添加到 zip 的示例。这是我的代码，但它生成了一个“损坏的”zip。 var len = results.row
c# - 尝试从内部 Zip 文件(另一个 Zip 中的 Zip)获取流时出现 "Cannot Read That as a Zip File"异常
在 C# 中，我使用的是 DotNetZip我有一个名为“innerZip.zip”的 zip，其中包含一些数据，和另一个名为“outerZip.zip”的 zip，其中包含 innerZip。我为什
R:获取有关使用 zip::zipr() 而不是 zip::zip() 的注意事项 - 是否值得关注？
当我使用 library(xlsx) 中的 write.xlsx 时，控制台中会出现以下内容: Note: zip::zip() is deprecated, please use zip::zipr
zip - WinXP 的 "Send to Compressed (zipped) Folder"如何决定在 zip 文件中包含什么？
如果我因为问“非编程”问题而被拒绝，我不会太惊讶，但也许有人知道...... 我正在使用 WinXP 的内置“发送到压缩(zipped)文件夹”功能压缩我的 subversion 沙箱的内容，并惊讶地
zip - 解压缩 Zip 压缩的二进制字符串
我在 Elixir 中有一个二进制字符串，它由压缩字节组成，我想放气并从中提取“真实数据”: iex(93)> data > 我不确定如何解压缩这些数据。到目前为止，我已经: 浏览了 Official
zip - 如何使用数据描述符部分创建 zip 文件
有没有一种方法可以创建一个 zip 文件并强制它在命令行中包含数据描述符部分？最佳答案在 Github ( https://github.com/adamhathcock/sharpcompres
zip - 在黑莓的代码签名过程中，我应该如何备份运动注册信息(.zip)？
我已经有 PBDT.csj and RDK.csj使用此 ( https://www.blackberry.com/SignedKeys/codesigning.html ) 链接进行代码签名处理后的
zip - 如何在 zip 文件中添加注释
我研究了几天，发现我们可以将一个包含一些内容的文件添加到 zip 文件中，然后再次压缩它。然后注释将被添加到 zip 文件中，但我不知道该文件到底是什么，所以任何人都知道向 zip(压缩)文件添加注释
zip - 如何找到 zip 文件的压缩级别？
我想知道如何找到 zip 文件的压缩级别。 7z 和 winzip 制作的 Zip 文件具有不同的级别评级，因此我想将其中的一些映射到其他工具中的相应级别。 store level 或 level 0
zip - zip mime类型，何时选择哪一个
到目前为止，对于Zip文件的Mime类型，我已经看到: 应用程序/八位字节流 multipart / x-zip 应用程序/ zip 应用程序/ zip压缩的应用程序/ x-zip压缩的我想我的问
zip - 标准 ZIP 使用哪种算法？
我已经在 google 上搜索、在 wiki 上搜索并阅读了 ZIP 的 RFC，但找不到有关 ZIP 中使用的确切算法的任何信息。我找到了有关 ZIP == TAR + GZIP 的信息但是，我
zip - 尝试在命令行中静默执行自解压 zip 文件
我有这些自解压 zip 文件，我正试图在 2008/7 机器上远程解压这些文件。但它们是以 .exe 的方式出现的，它需要用户双击并选择提取位置。在 WinZip 支持网站上，他们说要使用/auto
C# - 如何使用 7-zip 库(即不是 .7z，而是 .zip)创建常规 ZIP 存档？
这是我在这里的第一个问题，请耐心等待。我的目标是在 C# 中创建一个基本的 .zip 存档。我已经尝试使用 .NET 的内置 GZipStream 类并设法实现了这一点，但是我遇到了一个问题，我无法
java - zip 文件内的 zip 文件的文件系统
能否为压缩文件中的压缩文件创建 java.nio.file.FileSystem？如果是这样，URI 是什么样的？如果没有，我想我将不得不退回到使用 ZipInputStream。我正在尝试递归
zip - zip 和 tgz 格式有什么区别？
我想在 here 安装 scala我很关心下载哪一个:zip 还是 tgz。它们之间有什么区别，用例是什么？最佳答案它们是不同的archive formats .使用它们是因为它可以节省带宽并且因

首页

博学

6Ren·AI

商城

apache-spark - 令人震惊的 : RDD. zip() 方法