hadoop - 星火基础-6ren

hadoop - 星火基础

转载作者：可可西里更新时间：2023-11-01 15:31:24

26

4

我是 Spark 的新手......在学习基础知识时我不清楚一些基本的事情:

查询 1. 对于分布式处理 - Spark 可以在没有 HDFS 的情况下工作吗 - 集群上的 Hadoop 文件系统(比如通过创建它自己的分布式文件系统)或者它是否需要一些基本的分布式文件系统作为像 HDFS 这样的必要条件, GPFS等

查询 2. 如果我们已经在 HDFS 中加载了一个文件(作为分布式 block )——那么 Spark 会再次将其转换为 block 并在它的级别重新分发(用于分布式处理)，或者将根据Haddop HDFS 集群。

查询 3. 除了定义 DAG 之外，SPARK 是否也像 MapReduce 一样创建分区并将分区洗牌到 reducer 节点以进行进一步计算？我对此感到困惑，因为在创建 DAG 之前很明显，在每个 Worker 节点上工作的 Spark Executor 将数据 block 加载为内存中的 RDD，并且根据 DAG 应用计算......但是将数据分区到哪里是必需的每个 Keys 并将它们带到将执行 reducer 任务的其他节点(就像 mapreduce)这是如何在内存中完成的？？

最佳答案

这最好作为单独的问题来问，问题 3 很难理解。无论如何:

不，Spark 不需要分布式文件系统。
默认情况下，Spark 将为每个 HDFS block 创建一个分区，并在可能的情况下将计算与数据放在一起。
你问的是shuffle。 Shuffle 在 reducer 将从中获取的映射器上创建 block 。 spark.shuffle.memoryFraction 参数控制分配给随机 block 文件的内存量。 (默认为 20%。)spark.shuffle.spill 参数控制内存用完时是否将 shuffle block 溢出到本地磁盘。

关于hadoop - 星火基础，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32185134/

26

4

0

文章推荐： java - Hadoop 2.5.0 作业不成功，流命令失败

文章推荐： hadoop - 如何在 Pig 中将 NaN 值转换为零

文章推荐： azure - Azure HDInsights 中的 headnodehost

Hadoop、 Apache 星火
我已经在 Window 中安装了 Spark。我正在尝试从 D: 驱动器加载文本文件。 RDD 正在正常创建，但是当我对该接收错误执行任何操作时。我尝试了斜线的所有组合但没有成功 scala> val
java - Apache 星火 Mllib
我正在尝试使用 Spark 的 MLlib 在 Java 上实现 KMeans，我偶然发现了一个问题，那就是，尽管我导入了正确的 jar，但我的编译器无法识别这一行 // Cluster the da
java - 星火 UnsupportedOperationException : empty collection
在尝试使用 Databricks 提供的动手实验室执行 spark mllib ALS 时，是否有人知道此错误的可能原因？ 14/11/20 23:33:38 WARN Utils: Set SPAR
scala - Apache 星火。 UDF 列基于另一列，而不将其名称作为参数传递。
DataSet 中有 firm 列，我正在向该 DataSet 添加另一列 - firm_id 示例: private val firms: mutable.Map[String, Integer]
hadoop - 星火 2.2.0 FileOutputCommitter
DirectFileOutputCommitter 在 Spark 2.2.0 中不再可用。这意味着写入 S3 需要非常长的时间(3 小时对 2 分钟)。我可以通过在 spark-shell 中将 F
scala - Apache 星火 : get elements of Row by name
在 DataFrame Apache Spark 中的对象(我正在使用 Scala 接口(interface))，如果我正在迭代它的 Row对象，有没有办法按名称提取值？我可以看到如何做一些非常尴尬的
apache-spark - Apache 星火 : ERROR Executor -> Iterator
我正在尝试从此处 (Learning Spark book) 运行示例，但出现以下错误: 16/10/07 01:15:26 ERROR Executor: Exception in task 0.0
python - Apache 星火 : How to use pyspark with Python 3
我从 GH 开发大师那里构建了 Spark 1.4，并且构建顺利。但是当我执行 bin/pyspark 时，我得到了 Python 2.7.9 版本。我该如何更改？最佳答案只需设置环境变量: 导出
java - 星火 2.0.1 java.lang.NegativeArraySizeException
我开始玩 Spark 2.0.1。新数据集 API 非常干净，但我在执行非常简单的操作时遇到了问题。也许我遗漏了什么，希望有人能提供帮助。这些说明 SparkConf conf = new Spa
java - 星火 java : Creating a new Dataset with a given schema
我有这段代码在 scala 中运行良好: val schema = StructType(Array( StructField("field1", StringType, true),
caching - Apache 星火 : User Memory vs Spark Memory
我正在构建一个 Spark 应用程序，我必须在其中缓存大约 15 GB 的 CSV 文件。我读到了新的 UnifiedMemoryManager Spark 1.6 在这里介绍: https://0x
apache-spark - 星火 ML : Taking square root of feature columns
您好，我正在使用自定义 UDF 对每列中的每个值求平方根。 square_root_UDF = udf(lambda x: math.sqrt(x), DoubleType()) for x in f
apache-spark - Apache 星火 : setting executor instances does not change the executors
我有一个 Apache Spark 应用程序在集群模式下运行在 YARN 集群上(spark 在这个集群上有 3 个节点)。当应用程序运行时，Spark-UI 显示 2 个执行程序(每个运行在不同的
postgresql - 星火 SQL 2.0 : NullPointerException with a valid PostgreSQL query
我有一个有效的 PostgreSQL 查询:当我在 PSQL 中复制/粘贴它时，我得到了想要的结果。但是，当我使用 Spark SQL 运行时，它会导致 NullPointerException。
scala - 星火 SQL : access file in current worker node directory
我需要使用 spark-sql 读取一个文件，该文件在当前目录中。我使用此命令解压缩存储在 HDFS 上的文件列表。 val decompressCommand = Seq(laszippath,
java - 星火 & Maven : SecurityException: Invalid Signature file digest for Manifest
提交复制并粘贴到下方的 Spark 应用程序时，我遇到了以下错误。我首先对这个问题进行了一些谷歌搜索，并确定这可能是一个签名 jar 的问题，该签名 jar 作为对我的 jar 构建过程的依赖项被加载
scala - 星火(斯卡拉): groupby and aggregate list of values to one list based on index
这个问题在这里已经有了答案: How to aggregate values into collection after groupBy? (3 个答案) Spark merge/combine a
apache-spark - Apache 星火 : Using folder structures to reduce run-time of analyses
我想通过将一个巨大的 csv 文件分割为不同的分区来优化 Spark 应用程序的运行时间，具体取决于它们的特性。例如。我有一列带有客户 ID(整数，a)，一列带有日期(月 + 年，例如 01.201
hadoop - 星火-Hadoop-> org.apache.hadoop.mapred.InvalidInputException : Input path does not exist
我在尝试将文件从 hdfs 读取到 Spark 时遇到错误。文件 README.md 存在于 hdfs 中 spark@osboxes hadoop]$ hdfs dfs -ls README.md
apache-spark - 星火-SQL : Unable to instantiate org. apache.hadoop.hive.metastore.HiveMetaStoreClient
一段时间后，无法弄清楚如何在运行 spark-sql 二进制文件时识别以下错误的根本原因: 15/12/08 14:48:41 WARN NativeCodeLoader: Unable to loa

首页

博学

6Ren·AI

商城

hadoop - 星火基础