- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在使用 Spark 的 Python API 并运行 Spark 0.8。
我正在存储大量浮点向量 RDD,我需要针对整个集合执行一个向量的计算。
RDD 中的分片和分区有区别吗?
当我创建 RDD 时,我将 100 作为参数传递给它,这导致它将 RDD 存储为 100 个切片,并在执行计算时创建 100 个任务。我想知道对数据进行分区是否可以通过使系统更有效地处理数据来提高切片之外的性能(即,对分区执行操作与仅对切片 RDD 中的每个元素进行操作之间是否存在差异)。
例如,这两段代码之间有什么显着差异吗?
rdd = sc.textFile(demo.txt, 100)
对比
rdd = sc.textFile(demo.txt)
rdd.partitionBy(100)
最佳答案
我相信 slices
和 partitions
在 Apache Spark 中是一样的。
但是,您发布的两段代码之间存在细微但可能很重要的差异。
此代码将尝试使用 100 个并发任务将 demo.txt
直接加载到 100 个分区中:
rdd = sc.textFile('demo.txt', 100)
对于未压缩的文本,它将按预期工作。但是如果你有一个 demo.gz
而不是 demo.txt
,你最终会得到一个只有 1 个分区的 RDD。无法并行读取 gzip 文件。
另一方面,下面的代码首先将demo.txt
打开到一个具有默认分区数的RDD中,然后它会显式地将数据重新分区为100大小大致相等的分区。
rdd = sc.textFile('demo.txt')
rdd = rdd.repartition(100)
因此在这种情况下,即使使用 demo.gz
,您最终也会得到一个包含 100 个分区的 RDD。
作为旁注,我用 repartition()
替换了你的 partitionBy()
因为我相信你正在寻找它。 partitionBy()
要求 RDD 是元组的 RDD。由于 repartition()
在 Spark 0.8.0 中不可用,您应该可以使用 coalesce(100, shuffle=True)
。
Spark 可以为 RDD 的每个分区运行 1 个并发任务,最多可达集群中的核心数。所以如果你有一个有 50 个核心的集群,你希望你的 RDD 至少有 50 个分区(可能是 2-3x times that )。
从 Spark 1.1.0 开始,您可以检查一个 RDD 有多少个分区,如下所示:
rdd.getNumPartitions() # Python API
rdd.partitions.size // Scala API
在 1.1.0 之前,使用 Python API 执行此操作的方法是 rdd._jrdd.splits().size()
。
关于python - RDD的切片和分区有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24269495/
简而言之: 我怎样才能切片?也就是说,能够指定我想从多个索引(例如 y = x[(2, 5, 11)] )中提取,而不仅仅是单个索引(例如 y = x[2] )。 简单示例 : 说我有这个数据: d
是否可以在 F# 中对 Array2D 进行切片? 说,let tmp =Array2D.init 100 100 (fun x y -> x * 100 + y) 如何从 tmp 中检索某些列或某些
例如,我希望文本仅显示“此处”,但它不起作用。文本经常变化,但我需要的单词保持在固定位置。我想访问该词。 我做错了什么? function myFunction() { var x = doc
当尝试使用spring的分页或切片来迭代非常大的mongodb集合时,程序运行正常,但在某些时候下一页/切片为空,并且在调试时出现“包含未知实例的页面/切片”消息. 这是代码示例: do { Pa
有人能给我一个关于如何分割 ListView 的例子吗?我正在使用 SimpleCursorAdapter 在 ListView 中显示数据.. 我的代码是这样的。 private WordDbAda
这个问题在这里已经有了答案: C++ slicing causing leak / undefined behavior / crash (3 个答案) 关闭 8 年前。 如果我有如下代码: cla
这个问题在这里已经有了答案: Understanding slicing (38 个答案) 关闭 5 年前。 我目前有 500 行数据。我想使用前五十行,然后跳过 50 行,依此类推。我该如何继续这
为什么对一行或一列进行切片会产生“无量纲数组”?例如: import numpy as np arr = np.zeros((10,10)) print arr.shape # (10, 10) 但是
我有以下 pandas 数据框: Shortcut_Dimension_4_Code Stage_Code 10225003 2 8225003
如何通过数组为 ruby 中的散列创建切片,如下所示: info = { :key1 => "Lorem", :key2 => "something...", :key3 => "
这个问题在这里已经有了答案: regex to get all text outside of brackets (4 个答案) 关闭 5 年前。 我正在编写的这个程序接收到一个大小不同的字符串,其
我尝试使用 tf.Tensor.getitem 对张量进行切片功能如下: indices = [0, 5] data[:,:,indices] 但是我得到以下错误: TypeError: can on
这个问题在这里已经有了答案: Can I create a "view" on a Python list? (10 个答案) 关闭 7 年前。 有没有一种方法可以在 Python 3 中创建序列的
我想弄清楚如何从多维数组中获取单个维度(为了论证,假设它是二维的),我有一个多维数组: double[,] d = new double[,] { { 1, 2, 3, 4, 5 }, { 5, 4,
我有一个 std::vector。我想创建代表该 vector 切片的迭代器。我该怎么做?在伪 C++ 中: class InterestingType; void doSomething(slice
写在前面 前面的文章介绍了Go的一些基本类型,本文开始涉及Go的一些容器类型,它们都是可以包含多个元素的数据结构,如数组、切片、map 数组 数组是具有相同类型且长度固定的一组元素集合,定义的格式:v
给定一个 numpy 数组和一个 __getitem__ 类型的索引,是否有一种惯用的方法来获取数组的相应切片,总是返回一个数组而不是标量? 有效索引的示例包括:int、slice、省略号或上述的元组
我创建了一个继承自 pandas.DataFrame 的类。在此类中添加了元数据(不是添加到列中,而是添加到类实例中): class MeasurementPoint(pandas.DataFrame
我想在空间上剪切视频以生成 N x M 个文件。 例如,我想把 test.video 拆分成 NxM 的瓦片? Video tiles 最佳答案 您可以使用 ffmpeg 及其 crop filter
这是一个示例代码。比如我想拉德国 在页面加载时切片。在这段代码中,它拉取第一个切片。 无功图; var 传说; var chartData = [{ 国家:“立陶宛”, 值:260}, { 国家:“爱
我是一名优秀的程序员,十分优秀!