hadoop - Spark 是否使用数据局部性？-6ren

hadoop - Spark 是否使用数据局部性？

转载作者：可可西里更新时间：2023-11-01 14:10:52

25

4

我正在尝试了解 Apache Spark 的内部结构。我想知道 Spark 是否使用某些机制来确保在从 InputFormat 读取或写入 OutputFormat(或 Spark native 支持但不是从 MapReduce 派生的其他格式)时的数据局部性。

在第一种情况(阅读)中，我的理解是，当使用 InputFormat 时，拆分与包含数据的主机(或主机？？)相关联，因此 Spark 尝试将任务分配给执行程序以减少网络尽可能转移。

在写作的情况下，这种机制将如何运作？我知道从技术上讲，HDFS 中的文件可以保存在本地的任何节点中并复制到其他两个节点(因此您将网络用于 3 个副本中的两个)，但是，如果您考虑写入其他系统，例如 NoSQL 数据库( Cassandra, HBase, others.. )，这些系统有自己的数据分布方式。有没有办法告诉 spark 根据输出接收器(目标 NoSQL 数据库， native 或通过 OutputFormat 查看)预期的数据分布以优化数据局部性的方式对 RDD 进行分区？

我指的是 Spark 节点和 NoSQL 节点位于同一物理机中的环境。

最佳答案

如果你在同一台物理机器上使用 Spark 和 Cassandra，你应该查看 spark-cassandra-connector它将确保读取和写入的数据局部性。

例如，如果您将 Cassandra 表加载到 RDD 中，连接器将始终尝试在每个节点上本地对该 RDD 执行操作。当您将 RDD 保存到 Cassandra 中时，连接器也会尝试将结果保存在本地。

这假设您的数据已经在您的 Cassandra 集群中保持平衡。如果您的 PartitionKey 没有正确完成，无论如何您最终都会得到一个不平衡的集群。

还要注意 Spark 上的改组作业。例如，如果您在 RDD 上执行 ReduceByKey，无论如何您最终都会通过网络流式传输数据。因此，请始终仔细规划这些工作。

关于hadoop - Spark 是否使用数据局部性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27638281/

25

4

0

文章推荐： hadoop - 如何有效地将数据从 Kafka 移动到 Impala 表？

文章推荐： r - 如何制作 1 亿条推文的 R tm 语料库？

文章推荐： hadoop - 尝试使用不支持这些操作的事务管理器进行更新或删除

LISP 局部/全局变量赋值
如果我们定义一个像这样的函数 (defun foo(x) (setf x somevalue)) x 定义为局部变量还是全局变量？使用 setf/q 将值设置为全局值。如果它是全局的，谁能告诉我如
c# - MVC3 局部 View
仍在学习 MVC3、EF。现在我正在连接到 MySql，但我相信这无关紧要。为简单起见，我决定为我的测试应用程序使用一个数据库，并且我包含了一个类别来区分数据。例如，我有一个新闻、事件、信息和页面类别
scope - 局部 C 指针变量
假设我定义了以下代码: int *func() { int *p=(int *)malloc(sizeof(int)); // memory is allocated from heap
PHP MVC，局部 View ？
我正在构建一个小型 PHP MVC，但我在一小部分编码方面碰壁了。我想我需要“局部 View ”，但我也许可以用现有代码实现一些东西。目前我的 Controller 是最简单的形式: 实例化一个对象
scope - 局部 C 指针变量
假设我定义了以下代码: int *func() { int *p=(int *)malloc(sizeof(int)); // memory is allocated from heap
python - 函数内函数中的未绑定(bind)局部
我有以下代码(用 Python 2.X 编写): def banana(x): def apple(stuff): x /= 10 return stuff -
c# - MVC 局部 View
我正在尝试重用一些代码，部分 View 似乎是使用 MVC 时执行此操作的最佳方式。我创建了一个继承自 IEnumerable 的局部 View (见下文)。 @model IEnumerable
c - 局部 const 变量将存储在哪里？
局部 const 变量将存储在哪里？我已经验证过，函数中使用 const 变量的每个位置都会被其值替换(如立即值寻址模式)。但如果指针被分配给它，那么它就会存储在堆栈中。在这里我不明白处理器如何知道其
Javascript 作用域变量(全局/局部)
我想将局部变量用作全局变量，有人告诉我这样做的方法是在函数外部创建变量，如下所示: var foo = null; function bar() {
css - Angular 局部 View
我正在处理一个很长的 Angular 表格。我想知道我是否可以将它分成许多不同的 View 并在主视图中引用它们中的每一个。 First Section
css - 局部 View 中的实例变量
我有一个导航栏，它是一个局部 View ，我需要在设计页面上呈现它，以便用户编辑他们的个人资料。事实上，我只有一个页面，但是添加执行帐户维护的路径搞乱了我的导航栏加载，因为实例变量不存在。无论如何，我
python - 为什么我的(局部)变量表现得像全局变量？
我没有用到全局变量，也从未明确定义过全局变量，但我的代码中似乎有一个。你能帮我把它做成本地的吗？ def algo(X): # randomized algorithm while len(X
python - 通过循环中的函数返回值更新多个(局部)变量
假设我有这个(当前无返回)函数: def codepoint_convert(text, offset): codepoint = text[offset] if codepoint
c# - 局部 View 和布局有什么区别？
我在我的项目中同时使用了局部 View 和布局概念，但我无法区分。但我的感觉是两者都在做同样的工作。任何人都可以通过示例说出有关局部 View 和布局的简要概念以及区别吗？最佳答案除了 Josh
c++ - 堆栈(局部)或全局变量？
使用全局变量会加快速度吗？在英特尔的体系结构软件开发人员手册(关于微处理器)中建议使用局部变量而不是全局变量。但是，请考虑以下代码: void process_tcp_packets(void) {
c# - 局部 View 中的不同模型
我有一个局部 View 使用的模型与我在其中呈现它的 View 不同。我不断收到错误消息。 The model item passed into the dictionary is of type '
c# - 局部 View 不刷新
我在 cshtml 页面上有一个局部 View ，如下所示:- @model MvcCommons.ViewModels.CompositeViewModel @{ ViewBag.Title = "
C 数组行为 - 全局/局部/动态
我在从 while 循环全局更新数组时遇到问题，如下所述。请注意，我只能使用 C 95 及之前版本的功能。任何帮助将不胜感激!满浆箱http://pastebin.com/ss6VgTCD 在我的程序
c# - 刷新 Json 局部 View
我想刷新 Json 局部 View 。我正在尝试使用这个: $('#example123').load('@Url.Action("Rejestracja", "Logowanie")'); 但不能正
jQuery Ajax 局部 View 只工作一次
我有一个 asp.net 页面，它返回我当前正在使用的选项卡中的部分 View 。我已经设置了所有 jQuery 并且可以正常工作。它工作一次并通过 ajax 返回一个局部 View .html(re

首页

博学

6Ren·AI

商城

hadoop - Spark 是否使用数据局部性？