python - MapReduce 中的数据如何在数据节点之间分区和分布？-6ren

python - MapReduce 中的数据如何在数据节点之间分区和分布？

转载作者：可可西里更新时间：2023-11-01 17:01:16

24

4

我是 MapReduce 的新手，我的任务是处理大数据(记录行)。我应该使用的一件事是我的映射器中特定记录的行号，然后 reducer 根据映射器处理行号信息。

例如，假设现在我有一个非常大的input.txt，每一行看起来是这样的:

1. Melo, apple, orange
2. orange, perl
3. apple, banana, car
...
10000. Apple
...

如果我想根据苹果的出现行数来计算苹果的出现，然后计算这些不同水果之间的关系，比如:

Apple => orange

我可以将键/值对中的值设为行号列表吗？但是由于我不知道如何为不同的数据节点分区数据，因此原始输入文件的行号信息将会丢失。我不知道数据是如何在数据节点之间分布的，是基于第一条记录的偏移量吗？还是分区数据的大小？

我已经查阅了几个教程，但我仍然对 mapreduce 的确切工作流程感到困惑。此外，我打算使用 Amazon elastic mapreduce 并使用 Python。

也许我在这次讨论中谈论的是同样的事情，但据我所知，当时或讨论期间没有解决方案。对吗？

http://lucene.472066.n3.nabble.com/current-line-number-as-key-td2958080.html

谢谢!

最佳答案

您的问题包含很多内容，因此我将处理我理解的部分。开始了:

I don't know how the data is distributed among the datanodes, is it based on the offset from the first record? Or the size of the partitioned data?

数据完全根据文件大小分布。 HDFS 不知道您的记录边界，只会将文件分成指定大小(默认 64MB)的 block 。然后在集群的 DataNode 之间共享这些 block 。

I have looked up several tutorials and I am still confused about the exact workflow of mapreduce. In addition, I'm planning to use Amazon elastic mapreduce and use Python.

目前有两个主要版本的 Hadoop。 1.x 系列又名 MapReduce v1 和 2.x 系列又名 YARN。作为一名程序员，您将以类似的方式与它们进行交互，但在幕后，工作的完成方式存在一些差异。这是混淆的常见原因。特别是，由于大多数教程都是针对 MapReduce v1 的。

Maybe I'm talking about same thing in this discussion, but as far as I know, there's no solution at that time or during that discussion. Is it right?

所以这是你的数据集:

1. Melo, apple, orange
2. orange, perl
3. apple, banana, car
...
10000. Apple
...

您有一个行号、一个空格，然后是逗号分隔值。因此，您的问题似乎与您在问题中链接到的问题截然不同。还是我不理解数据？

关于python - MapReduce 中的数据如何在数据节点之间分区和分布？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23796858/

24

4

0

文章推荐： apache - 我应该返回 501/505 HTTP 状态还是 400/404

文章推荐： javascript - AngularJS 将 HTML 传递到 $scope

文章推荐： database - 使用不同长度的行在 Hive 中加载 CSV 文件

文章推荐： json - pig jsonloader 数组解析问题

JavaFX - 每行迭代 GridPane 节点 - 每行读取 GridPane 节点
我正在使用 JavaFX 8 创建一个应用程序。我使用拖/放动态更改网格 Pane 的内容。我希望每行或每行/列迭代 GridPane 内容。JavaFX 允许通过指定行和列在 GridPane 中添
javascript - 错误:无法在“节点”上执行“appendChild”:参数1不是“节点”类型
我正在尝试将图像拖放到div上。图像没有被拖到div上并给出以下错误 Uncaught TypeError: Failed to execute 'appendChild' on 'Node': pa
java - 如何在 ARcore 的帮助下相对于一个 anchor 定位 anchor /节点/ anchor 节点？
我正在 android studio 中创建内部构建 AR 导航。我正在寻找一种方法将 anchor 与其他 anchor 或 anchor 节点/节点“连接”起来。我不确定使用哪一个。基于我将强制用
hadoop - 我的 2 节点 hadoop 比我的 4 节点 hadoop 表现更好
我在 Hive 上运行一些作业:首先是 4 节点，然后是 2 节点。令我惊讶的是，我的 2 节点性能比我的 4 节点更好。首先，我在一个 4 节点(4 个事件节点)上运行查询，然后关闭 2 个节点(
c++ - ' =' : cannot convert from ' CircularDoubleDirectedList::节点 *' to ' 节点 *'
我有 Node* current ，我在其中存储指向列表“顶部”当前节点的指针。当我将一个新节点设置为当前节点时，出现错误: '=' : cannot convert from 'CircularDo
linux - 无法使用 dcos 节点 ssh --master-proxy --leader sshing 进入 dcos 节点
我是 dcos Mesos 的新手，在本地 Ubuntu 机器上安装了 dc os。我可以查看 dcos 仪表板。但我无法使用 dcos node ssh --master-proxy --lea
JavaFX:如何定位组件/节点？
在 JavaFX 中，是否有类似 setLayout(); 的东西？或 setBounds(); ? 例如，我想将按钮定位到我想要的位置。最佳答案 JavaFX 场景图上的所有内容都是 Node .
JavaFX 节点 - 如何让最终用户调整它们的大小？
我正在开发一个 JavaFX 应用程序，其中我开发的类(从 javafx.scene.Parent 扩展)是根据用户在 ListView 控件中单击的条目动态创建的。只是要清楚这个节点，它不是使用像
uml - 节点-边缘关系的类图
我正在尝试为节点-边缘关系创建一个类图，因为它可以在有向图中找到。我想传达的是，Nodes 引用了 Edges，Edges 也引用了 Nodes。每个 Edge 都恰好需要两个 Node(源和目标)。
hadoop - 如何指定应在其上运行mapreduce的各个tasktrackers(节点)？
在mapreduce作业期间，单个任务将在随机节点上运行，是否有任何方法限制应在其中运行任务的节点？最佳答案 Hadoop不会选择节点来随机运行任务。考虑到数据局部性，否则将有很多网络开销。任务与
Cassandra 节点 - 重建与重建维修
有什么区别: a) nodetool 重建 b) nodetool 修复 [-pr] 换句话来说，各个命令到底是做什么的？最佳答案 nodetool重建:类似于引导过程(当您向集群添加新节点时)，但
java - 节点 : 没有数据类型
我已将第一个 OneToMany 关系添加到我的 hibernate 3.6.10 项目中。这是一个类: /** * */ package com.heavyweightsoftware.leal
javascript - 获取触发事件的元素(节点)
是否有可能找到正在监听触发当前函数的事件的元素？在下面的代码中，event.target 返回 #xScrollPane 和 event.currentTarget 和 event 的最低子节点.f
javascript - 覆盖数据而不生成新的键/节点
我正在尝试覆盖我数据库中的一些数据。结构很简单，就是: recipes { user_1{ recipe_1{data} recipe_2{data} } user_2{
javascript - 输入后运行JS函数，节点
我使用 setInterval 来运行该函数，但它会多次执行函数 2... 如何在输入中插入一个值后执行函数第一个输入与其余输入的距离不同如何在插入 val(tab 选项)后将插入从 1 个输入移
c++ - “节点”不是全局命名空间的成员？
我不知道代码有什么问题，但在 visual studio 中不断收到这些错误消息。 Error 18 error C1903: unable to recover from previous e
JavaScript/jQuery 节点
我正在尝试从其类中获取 SharePoint 搜索导航节点的对象。 var nodes = $("div.ms-qSuggest-listItem"); 我正在获取节点对象，现在想要获取“_promp
javascript - 节点|运行JS文件时出错
D:\nodeP>node main.js module.js:327 抛出错误； ^ 错误:在 Function.Module 的 Function.Module._resolveFilename
c++ - 节点(){}是什么意思？
struct node{ int key, prior, cnt, val; node *l, *r; node(){} node(int nkey) : key(nkey),
c++ - 如何删除正在使用的对象(节点)
我有以下代码使用迭代器将项目插入双链表。这就是我们被要求这样做的方式。代码有效，但问题是我有 24 字节的绝对内存泄漏。 NodeIterator insert(NodeIterator & itrP

首页

博学

6Ren·AI

商城

python - MapReduce 中的数据如何在数据节点之间分区和分布？