apache-spark - sc.parallelize 和 sc.textFile 有什么区别？-6ren

apache-spark - sc.parallelize 和 sc.textFile 有什么区别？

转载作者：行者123 更新时间：2023-12-04 03:08:35

33

4

我是 Spark 的新手。有人可以清除我的疑问吗:

让我们假设下面是我的代码:

a = sc.textFile(filename) 
b = a.filter(lambda x: len(x)>0 and x.split("\t").count("111"))
c = b.collect()

我希望以下是内部发生的事情:(如果我的理解有误，请纠正)

(1) 变量a将保存为包含预期txt文件内容的RDD变量

(2) 驱动程序节点将工作分解为任务，每个任务都包含有关它将操作的数据拆分的信息。
现在这些任务被分配给工作节点。

(3) 当collection action(即本例中的collect())被调用时，结果会从不同的节点返回给master，并保存为局部变量c。

现在我想了解以下代码有何不同:

a = sc.textFile(filename).collect() 
b = sc.parallelize(a).filter(lambda x: len(x)>0 and x.split("\t").count("111")) 
c = b.collect()

有人可以澄清一下吗？

最佳答案

(1) variable a will be saved as a RDD variable containing the expected txt file content

(突出显示我的)不是真的。线刚描述会发生什么后你执行一个 Action ，即 RDD 变量做不是包含预期的 txt 文件内容。

RDD 描述了分区，当一个 Action 被调用时，这些分区将成为读取输入文件部分的任务。

(2) The driver node breaks up the work into tasks and each task contains information about the split of the data it will operate on. Now these Tasks are assigned to worker nodes.

是的，但仅当调用了 c=b.collect() 的操作时在你的情况下。

(3) when collection action (i.e collect() in our case) is invoked, the results will be returned to the master from different nodes, and saved as a local variable c.

是的!这是内存方面最危险的操作，因为在集群中某处运行的所有 Spark 执行程序都开始将数据发送回驱动程序。

Now I want to understand what difference below code makes

引用 sc.textFile 的文档:

textFile(path: String, minPartitions: Int = defaultMinPartitions): RDD[String] Read a text file from HDFS, a local file system (available on all nodes), or any Hadoop-supported file system URI, and return it as an RDD of Strings.

引用 sc.parallelize 的文档:

parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: ClassTag[T]): RDD[T] Distribute a local Scala collection to form an RDD.

不同之处在于数据集 - 文件(对于 textFile )和本地集合(对于 parallelize )。两者都在幕后做同样的事情，即它们都构建了如何访问将使用转换和操作处理的数据的描述。

因此，主要区别在于数据的来源。

关于apache-spark - sc.parallelize 和 sc.textFile 有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44860973/

33

4

0

文章推荐： Dart - 编码和解码 base64 字符串

文章推荐： objective-c - 如何在Mac上以编程方式更改光标大小

文章推荐： silverlight - 如何枚举 XAP 中包含为 "Content"的图像？

文章推荐： magento在类别中显示错误的产品计数

scala - sc.textFile Scala错误
我正在尝试从写入文件的路径读取文件。我正在关注文档，因此我在使用以下代码行: val data = sc.textFile(PATH) 这给出了编译错误: 找不到:值sc。我找到了涉及应在终端中给
凯撒密码 (C) : Read from textfile
我正在研究凯撒密码，我的代码已基本完成，但我在从文本文件 (txt) 读取句子、将其存储在数组中、解码并再次将其存储在文本文件中时遇到问题。到目前为止，我已经成功打开文本文件，逐行读取它，并将其显示
javascript - JS : Textfile to JSON
我是 JS 的初学者，需要一些帮助。我有一个如下所示的文本文件: JOBID,NAME,USER,NODELIST,CPUS,STATE,REASON 2527,_DP-2-Q-095-84-1-50
C# 读写 TextFile 在中间结束
我运行一个方法，有三个部分，第 1 部分和第 3 部分都是“读取文本文件”，第二部分是将字符串保存到文本文件， // The Save Path is the text file's Path, u
python - PySpark textFile 命令中的正则表达式
我试图弄清楚在选择多个感兴趣的文件时我可以将这个命令推到什么程度。例如，我使用以下通配符来选取多个目录中感兴趣的所有文件，但我想使用正则表达式等来限制目录名称的长度。 lines = sc.textF
hadoop - SparkContext.textFile 是如何工作的？
我试图深入理解 textFile 方法，但我认为我的缺乏 Hadoop 知识让我退缩了。让我摆出我的理解，也许你可以纠正任何不正确的地方当 sc.textFile(path) 被调用时，然后使用 d
TextFile 的 Hadoop 自定义拆分
我有一个相当大的文本文件，我想将其转换为 SequenceFile。不幸的是，该文件由 Python 代码组成，逻辑行跨越多个物理行。例如，打印“Blah Blah\ ...等等等等" 每条逻辑行都
hadoop - 'SparkContext' 对象没有属性 'textfile'
我尝试使用以下代码加载文件: textdata = sc.textfile('hdfs://localhost:9000/file.txt') 错误信息: AttributeError: 'Spark
scala - Spark textFile 与 WholeTextFiles
我了解textFile的基础理论为每个文件生成分区，而 wholeTextFiles生成一个pair值的RDD，其中key是每个文件的路径，value是每个文件的内容。现在，从技术的角度来看，两者之
python - 在 sc.textFile 中加载本地文件
我尝试加载本地文件，如下所示 File = sc.textFile('file:///D:/Python/files/tit.csv') File.count() 完整回溯 IllegalArgume
ios - Ionic TextFile 清除按钮键盘行为 iOS
我的 Ionic 应用程序中有一个文本输入，在同一范围内有 2 个按钮。第一个按钮用于进行搜索，第二个按钮用于清除文本输入。当我点击清除按钮时，我看到了奇怪的行为，文本输入被清除并且键盘重新出现但文本
c# - 提高 TextFile 的读取效率(更大的文件类型)
以下是我的代码，但一次不能处理超过 500 行。需要在行尾加一个,，同时进行检测。我目前正在做的是将它们分成 2 个不同的文本框，然后通过复制粘贴保存我需要的文本框，但如果文件太大，应用程序似乎会挂
hadoop - spark sc.textfile 的详细工作原理是什么？
我想详细了解 sc.textfile 的工作原理。我在 SparkContext.scala 中找到了文本文件源代码，但它们包含很多关于调度程序、阶段和提交的任务的信息。我想要的是sc.textfi
scala - 使用 sc.textFile() 加载本地文件以激发
问题如何使用sc.textFile从本地文件系统加载文件到Spark？我需要更改任何 -env 变量吗？此外，当我在未安装 Hadoop 的 Windows 上尝试相同操作时，我遇到了同样的错误。
python - Pyspark sc.textFile() 没有完全加载文件
我从 Cloudera quickstart docker 容器上的 Python Spark (v 1.6.0) 开始。我在/user/root/access_log.txt 下的 hdfs 中成功
python - 分区数如何影响 `wholeTextFiles` 和 `textFiles` ？
在 spark 中，我了解如何使用 wholeTextFiles 和 textFiles，但我不确定何时使用哪个。这是我目前所知道的: 处理不按行分割的文件时，应使用wholeTextFiles，否则
java - 使用 sc.textFile 从子目录递归获取文件内容
SparkContext textFile 似乎只希望文件出现在给定的目录位置 - 它也没有 (a) 递归或 (b) 甚至 support 目录(尝试将目录读取为文件) 关于如何构建递归的任何建议 -
Athena Unload TEXTFILE with null(Athena使用NULL卸载TEXTFILE)
I am currently utilizing the UNLOAD feature in AWS Athena, where I query something like:我目前正在使用AW
scala - sc.textFile 之后的 zipWithIndex 会给出正确的行号吗？
说如果我这样做，如下所示。 val rdd = sc.textFile("someFile.txt") val rddWithLines = rdd.zipWithIndex zipWithIndex
scala - 如何使用正则表达式在 sc.textFile 中包含/排除某些输入文件？
我试图在文件中使用 Apache spark 过滤掉特定文件的日期到 RDD 函数 sc.textFile() . 我尝试执行以下操作: sc.textFile("/user/Orders/20150

首页

博学

6Ren·AI

商城

apache-spark - sc.parallelize 和 sc.textFile 有什么区别？