hadoop - 什么决定了 map() 将被调用多少次？-6ren

hadoop - 什么决定了 map() 将被调用多少次？

转载作者：可可西里更新时间：2023-11-01 15:13:55

26

4

我有一个文本文件和一个解析器，它将解析每一行并存储到我的 customSplitInput 中，我在自定义 FileInputFormat 阶段进行解析，因此我的拆分是自定义的。现在，我有 2 个拆分，每个拆分中包含我的数据列表。

但现在，我的映射器函数在同一拆分上被重复调用。我认为映射器函数只会根据您拥有的拆分数调用？

我不知道这是否适用，但我的自定义 InputSplit 为 getLength() 返回一个固定数字，为 getLocation() 返回一个空字符串数组。我不确定要为这些添加什么。

@Override
    public RecordReader<LongWritable, ArrayWritable> createRecordReader(
            InputSplit input, TaskAttemptContext taskContext)
            throws IOException, InterruptedException {
        logger.info(">>> Creating Record Reader");
        CustomRecordReader recordReader = new CustomRecordReader(
                (EntryInputSplit) input);
        return recordReader;
    }

最佳答案

map() 为您的 InputFormat 中(或被其引用)的 RecordReader 中的每条记录调用一次。例如，TextInputFormat 为输入中的每一行调用 map()，即使拆分中通常有很多行也是如此。

关于hadoop - 什么决定了 map() 将被调用多少次？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29111653/

26

4

0

文章推荐： c++ - 仅在使用时如何在成员函数中进行静态断言？

文章推荐： hadoop - 如何正确执行 hadoop distcp -f 命令？

文章推荐： hadoop - Apache hive : LOAD DATA vs INSERT OVERWRITE OUTPUT FILE SIZE

文章推荐： c++ - C++11 中的 std::sin 变化？

mysql - 如果 xy 决定 z，那么 x 决定 z 和 y 决定 z 吗？
这是一道函数依赖题。我知道当 x->yz 然后 x->y 和 x->z 时。但是上面的依赖关系可能吗？最佳答案 If xy determines z can x determine z and y
php - 未定义或定义的索引？决定
我有一个奇怪的问题。 Line 61: $this->_currentRoute = Default_Model_Routes::getInstance()->getCurrentRoute(); .
audio - 决定 FFT 的长度
我正在开发一种工具来比较两个波形文件的波形相似性。例如，我有一个持续时间为 1 分钟的波形文件，我使用第一个波形文件制作了另一个波形文件，但每 5 秒生成一次数据，间隔为 5 秒至 0。现在我的软件
javascript - 决定 CSS 过渡的顺序
我遇到了一个奇怪的问题，尽管我打赌有一个巧妙的方法可以解决它。情况是我有一个具有三列排序状态的表:完全未排序，在这种情况下我不希望出现任何图标，按升序排序，在这种情况下我想要一个向上箭头，以及按降序
java - 决定 Java 内存模型的因果关系要求是否容易处理？
Java 语言规范提供了criteria用于确定(格式良好的)执行是否满足“Java 内存模型的因果关系要求”。让我们假设执行是有限的。我试图了解是否存在多项式时间算法来证明或反驳这种情况。真的，我
java - 决定 Java 内存模型的因果关系要求是否容易处理？
Java 语言规范提供了criteria用于确定(格式良好的)执行是否满足“Java 内存模型的因果关系要求”。让我们假设执行是有限的。我试图了解是否存在多项式时间算法来证明或反驳这种情况。真的，我
java - 银行类OOP接口(interface)决定
我正在编写一个简单的Bank类，其中包含Account。我希望人员能够开设一个新的受密码保护的银行帐户，并从其帐户中提取和存入资金。账户设在银行内。银行和帐户类应提供哪些服务？假设 p 已在银行 b
.net - 决定 .NET Framework 版本涉及哪些因素？
我的标题概括了这一点。我有一个将要开发的简单业务线应用程序，并且很好奇如何确定我应该针对哪个 .NET 版本。支持 Win XP SP3 会很好，但不是必需的。它将用于索引多页 tiff，因此导入一批
programming-languages - 为什么使用 Erlang 决定 "against"？
已锁定。这个问题及其答案是locked因为这个问题是题外话，但却具有历史意义。目前不接受新的答案或互动。你是否真的“尝试过”(意味着在其中编程，而不仅仅是阅读有关它的文章)Erlang并决定在项目中
c# - 决定 ExceptionFilterAttribute OnException 方法的实现
我正在尝试使用 ExceptionFilterAttribute 为 Web Api 实现异常处理。我已经继承了ExceptionFilterAttribute 类并覆盖了onException 方法
algorithm - 决定 'Jumping Jack' 的算法
前一段时间在一次编程比赛中我遇到了一个令人费解的问题，此后一直困扰着我。虽然我没有逐字记住，但我会尽力重现: Jack starts at 0 on the number line and jumps
html - 元素顺序应该由 HTML 还是 CSS 决定？
我有什么: 我有一个主要内容区域，后面跟着两个旁白: #primary,#secondary,#tertiary{float:left; width:33%;} Primary
ios - Swift textfield - 决定 View 是否必须向上推
我无法正确操作键盘。整个 View 充满了文本字段。当我使用通知将 View 向上移动时，上方的文本框不再可见: override func viewDidLoad() { super.v
phaser-framework - 决定 Pixi.js 还是 Phaser
已结束。此问题正在寻求书籍、工具、软件库等的推荐。它不满足Stack Overflow guidelines 。目前不接受答案。我们不允许提出寻求书籍、工具、软件库等推荐的问题。您可以编辑问题，以便
c++ - Qt:让 parent 决定 child 是否接受事件
我在尝试获取父对象来过滤子事件时遇到问题。在下面的示例中，我在旋转框上设置了一个事件过滤器。事件过滤器检测旋转框上的鼠标按下事件。然后，我希望父对象根据某些标准接受或忽略该事件。问题是它似乎接受了
c++ - 在不复制数据的情况下，决定 what() 从继承自 std::system_error 的类返回什么的符合标准的方法是什么？
我使用从 std::system_error 继承的类进行错误处理，我想控制调用 what() 时返回的内容。原因:标准(C++11 和 C++1y CD 草案 - N3690，下面的 § 引用是后者
ios - 6 个单独的 UIViewController 还是只有一个具有不同数据源的 segue 决定？
我正在用 Swift 构建一个 iOS 应用程序，它的起始页有 6 个按钮。这些按钮中的每一个都将连接到一个 TableView Controller ，其数据由 NSFetchedResultsCo
java - 为我的 Python 代码 API 决定 RESTful 架构
我想构建这样的东西数据存储| mycode.py | RESTful API | mywebapp.py(Django 或 Tornado) 我检查了 Django 的 Piston，但似乎这样我就
c# - 为 RichTextBox 决定 FontStyle(粗体、斜体、下划线)
究竟如何更改 RichTextBox 中的字体？环顾四周给了我似乎不再有效的旧答案。我认为这就像执行 richtextbox1.Font = Font.Bold; 或类似操作一样简单。原来不是，所以
python - 决定 Python 代码是 v2 还是 v3 需要注意什么
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu

首页

博学

6Ren·AI

商城

hadoop - 什么决定了 map() 将被调用多少次？