apache-spark - Spark分区: Loading a file from the local file system on a Single Node Cluster-6ren

apache-spark - Spark分区: Loading a file from the local file system on a Single Node Cluster

转载作者：行者123 更新时间：2023-12-02 03:32:03

25

4

我有兴趣了解 Spark 在从本地文件系统加载文件时如何创建分区。

我正在使用 Databricks 社区版来学习 Spark。当我使用 sc.textfile 命令加载一个大小只有几千字节(大约 300 kb)的文件时，spark 默认情况下会创建 2 个分区(由partitions.length 给出)。当我加载大约 500 MB 的文件时，它会创建 8 个分区(等于机器中的核心数量)。

enter image description here

这里的逻辑是什么？

此外，我从文档中了解到，如果我们从本地文件系统加载并使用集群，则该文件必须位于属于该集群的所有计算机上的同一位置。这不会创建重复项吗？ Spark 如何处理这种场景？如果您能指出阐明这一点的文章，将会有很大帮助。

谢谢!

最佳答案

当 Spark 从本地文件系统读取时，默认的分区数量(由 defaultParallelism 标识)是所有可用核心的数量。

sc.textFile 将分区数量计算为 defaultParallelism(本地 FS 情况下的可用核心数)和 2 之间的最小值。

def defaultMinPartitions: Int = math.min(defaultParallelism, 2)

引用自:spark code

第一种情况:文件大小 - 300KB

由于文件大小非常小，因此分区数计算为 2。

第二种情况:文件大小 - 500MB

分区数等于默认并行度。在你的例子中，它是 8。

从 HDFS 读取时，sc.textFile 将采用 minPartitions 和基于 hadoop 输入分割大小除以 block 大小计算得出的分割数之间的最大值。

但是，当将 textFile 与压缩文件(file.txt.gz 而不是 file.txt 或类似文件)一起使用时，Spark 会禁用拆分，从而导致 RDD 仅具有 1 个分区(因为对 gzip 压缩文件的读取无法并行化)。

对于有关从集群中的本地路径读取数据的第二个查询:

文件需要在集群中的所有机器上可用，因为 Spark 可能会在集群中的机器上启动执行器，并且执行器将使用 (file://) 读取文件。

为了避免将文件复制到所有机器，如果您的数据已经位于 NFS、AFS 和 MapR 的 NFS 层等网络文件系统之一中，那么您只需指定一个文件即可将其用作输入://小路;只要文件系统安装在每个节点上的相同路径上，Spark 就会处理它。每个节点都需要有相同的路径。请引用:https://community.hortonworks.com/questions/38482/loading-local-file-to-apache-spark.html

关于apache-spark - Spark分区: Loading a file from the local file system on a Single Node Cluster，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51571815/

25

4

0

文章推荐： spring - 如何从 Controller 调用服务

文章推荐： winapi - Windows 进入休眠模式时的通知

android - RxJava Single to Completable to Single - 如何将第一个 Single 的结果传递给第二个 Single
在下面的方法中，如何将第一个Single的结果传递给第二个Single？如现在所写，当它返回时，somethingId 是空的。如果我将返回的 Single.just(somethingId) 中的
C#:用 *single*\替换 single/
我发现很多帖子都在回答类似的问题(例如“如何用 / 替换 \”或“如何替换 \\” by \”。我理解所有这些，但没有一个能解决我的特殊问题。这里是: 我正在从注册表中读取路径字符串，其中包含“///
android - RxJava Single.toCompletable() 似乎以某种方式打破了 Single
注意:事实证明，toCompletable() 并非错误，而是调用代码。调用代码使得更改此方法使其工作(或不工作)。我有以下方法。它返回一个 Single。有用。执行内部代码，以便 remoteDa
javascript - single & 和 single | 是什么意思运营商在flow js中做什么？
react-native repo here 中的一个文件中有一段代码如下图: export type Operation = & {instanceID: DebugID} & (
c# - "Replace with single call to single"是什么意思？
当使用带有 Single() 的 LINQ 时，我的代码行总是带有绿色下划线，并带有建议“替换为对 single 的单一调用”。这是什么意思？下面是产生该建议的一行代码示例: var user = d
c# - 哪个更快 : Single(predicate) or Where(predicate). Single()
讨论来自 this answer让我好奇。哪个更快: someEnumerable.Single(predicate); 或 someEnumerable.Where(predicate).Singl
single-sign-on - key 斗篷 : Single Logout(SLO)
我正在使用 Keycloak 作为单点登录 (SSO) 平台的 OP。我已经将我的两个 Web 应用程序连接到 Keycloak，以便使用单点登录功能。此外，我已经制作了一个应用程序，当注销时将被重
java - rxJava : composing single with completable and return single
我的步骤是: 创建单个值 x - 可能会占用一些 CPU 资源使用值x来执行IO操作。这已经返回 Completable 返回x 所以我想这样做: Single result =
java - RxJava Single.just() vs Single.fromCallable()？
我想知道是否有人可以阐明这个问题，什么时候使用 Single.fromCallable( ()-> myObject ) 代替 Single.just(myObject) 根据文档，Single.fr
java - 当 Single.zip 中的一个来源失败时如何返回 Single.error()？
我有两个 Singles 来源，我将它们组合成一个 Single of Pair。假设我们对这些来源有两种方法: private Single single1() {} private Single
性能问题 : Single CPU core vs Single CUDA core
我想将单个 Intel CPU 内核的速度与单个 nVidia GPU 内核的速度(即:单个 CUDA 代码、单个线程)进行比较。我确实实现了以下简单的二维图像卷积算法: void convoluti
single-sign-on - Ping 联邦 : Single sign-on authentication was unsuccessful
我在实现 Ping Federate 时遇到此问题 Error - Single Sign-On Single sign-on authentication was unsuccessful (ref
java - RX Java Single 未从 Single.merge 返回
我有几个 api 调用(Rx singles)，我想将它们组合成一个 Single。我正在使用 Single.merge 尝试合并这些调用的结果，但是当我订阅响应时，我得到一个空数组，因为订阅已经发生
javascript - b :dataTable select a single row (and only a single one)
早上好。我的代码有问题 bootsfaces 。我需要我的 DataTable 支持单行选择，但不支持多行选择。但是，我的表格始终只使用多项选择。这是我的代码: 我没有进行简单的选择，因为我引用了
PHP : Using single quotes and double quotes in single string
我怎样才能像下面的代码那样使用字符串。 $str = 'Is yo"ur name O'reil"ly?'; 上面的代码只是一个例子..我需要使用包含单引号和双引号的大 html 模板。我尝试了 Ad
MongoDB 索引 : Multiple single-field vs single compound?
我有一组地理空间+时间数据和一些附加属性，我将在 map 上显示这些数据。该集合目前有几百万份文件，并且会随着时间的推移而增加。每个文档都有以下字段: 位置:[geojson 对象] 日期:[日期对
c# - SharpZipLib : Compressing a single file to a single compressed file
我目前在 .NET 2.0 下使用 SharpZipLib，通过它我需要将单个文件压缩为单个压缩存档。为此，我目前正在使用以下内容: string tempFilePath = @"C:\Users\
sql - 甲骨文 : Single multicolumn index or two single column indexes
我有 table create table1( column1 number(10, column2 number(10), column3 number(10) ); column1是主
android - Kotlin 协程 : one single coroutine at a time in single thread
考虑下面这段代码，我正在尝试使用 Executors.newFixedThreadPool(1).asCoroutineDispatcher()创建单线程调度程序；我想要 launch(singleT
java - RxJava 与 Single.zip 中嵌套的 Single.flatMap 相同吗？
我面临着困惑，举个例子 4 Single: val s1 : Single = service1.execute().subscribeOn(io()) val s2 : Single = servi

首页

博学

6Ren·AI

商城

apache-spark - Spark分区: Loading a file from the local file system on a Single Node Cluster