作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道一旦转换具有 numPartitions 参数,是否应该设置分区编号。例如,当我在代码中创建第一个 RDD 时,我设置了分区号。如果我创建另一个RDD,默认分区号会与第一个RDD相同吗?
最佳答案
默认情况下,spark 会负责将数据集划分为分区。还将处理在初始之上执行的任何操作。
但是,有时您可能需要将所有数据放在一个分区中,以便根据您的功能需求更好地进行分组。那么分区号会有帮助。在此阶段,您还应该验证执行器的内存设置,因为现在所有数据都将位于一个分区中。
另一种情况是,当您执行过滤时。当您执行过滤时,即使大多数记录被过滤掉,内部也会保留相同的分区。这会导致空心隔断。所以在这种情况下,你可以合并。此方法需要 numOfPartitions。
还有 rePartition() 方法,它以 numOfPartitions 作为输入。这涉及到重新洗牌。您可以找到它们here
大家可以根据自己的需要来选择
关于java - 是否需要到处设置分区号? Spark ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40996603/
我有一个图书馆,我计划以 dex 形式使用。我想直接针对这个库进行编译,但不导出它。相反,我想将它放在我的资源中并使用类加载器实际实例化它。 这是我的图书馆: public class Foo {
我是一名优秀的程序员,十分优秀!