hadoop - 在RecordReader初始化之前，Hadoop EMR作业的内存不足-6ren

hadoop - 在RecordReader初始化之前，Hadoop EMR作业的内存不足

转载作者：行者123 更新时间：2023-12-02 21:36:26

25

4

我试图找出是什么原因导致emr作业在开始处理文件输入之前就耗尽内存。我正在
在我的RecordReader尚未初始化之前(也就是在它甚至试图解压缩文件并对其进行处理之前)，“java.lang.OutOfMemoryError无法转换为java.lang.Exception”错误。我正在大量输入的目录上运行我的工作。我可以在较小的输入集上完成我的工作。有人有什么想法吗？

最佳答案

我意识到答案是主节点上的元数据开销过多。主节点必须为每个将要处理的文件存储约150 kb的数据。拥有数百万个文件，这可能是千兆字节的数据，这太多了，并导致主节点崩溃。

这是更多信息的好来源:http://www.inquidia.com/news-and-info/working-small-files-hadoop-part-1#sthash.YOtxmQvh.dpuf

关于hadoop - 在RecordReader初始化之前，Hadoop EMR作业的内存不足，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31928425/

25

4

0

文章推荐： hadoop - 在Hadoop 2.6.0多节点安装程序上安装Solr 5.2.1

文章推荐： hadoop - 使用tHiveConnection组件在Talend作业中获取错误

文章推荐： hadoop - 在Pig中处理数据结构

文章推荐： scala - 支持Map的IDE减少Scala中的程序

hadoop - RecordReader 的概念
我们知道在 Mapper 阶段之前，文件被拆分并且 RecordReader 开始工作以向 Mapper 发出输入。我的问题是 reducer 是否使用 RecordReader 类来读取映射器发出的
hadoop - 用于单行和多行日志的自定义 RecordReader
我正在尝试创建一个 MR 作业，它将更改通过 Flume 加载到 HDFS 中的日志文件的格式。我正在尝试将日志转换为一种格式，其中字段由“:::”分隔。例如 date/timestamp:::log
java - 使用带有大文件的自定义 RecordReader 时出现堆错误
我编写了一个自定义文件阅读器，不会分割我的输入文件，因为它们是大型 gzip 压缩文件，我希望我的第一个映射器工作只是简单地压缩它们。我按照“Hadoop 权威指南”中的示例进行操作，但在尝试读入 B
java - 自定义 RecordReader 初始化未调用
我最近开始使用 Hadoop，刚刚创建了自己的输入格式来处理 pdf。出于某种原因，我的自定义 RecordReader 类没有调用它的初始化方法。 (用sysout检查了一下，因为我还没有设置调试
hadoop - 在自定义 RecordReader 中确定压缩文件的长度
我编写了一个自定义记录读取器来读取 Hadoop 中的文本文件和 gzip 文件，因为我有一个特殊要求，即要将完整的文件数据作为键的值和文件名。来源如下: public class WholeFile
hadoop - 覆盖 RecordReader 以立即读取段落而不是行
我重写了 RecordReader 类的“next”方法和 TextInputFormat 类的“getRecordReader”方法，以便将整个段落而不是逐行发送到映射器。 (我正在使用旧的 api
Hadoop : Why using FileSplit in the RecordReader Implementation
在 Hadoop 中，考虑一个场景，如果一个大文件已经加载到 hdfs 文件系统中，使用 hdfs dfs put 或 hdfs dfs CopyFromLocal 命令，大文件将被分成 block
hadoop - 从 RecordReader/InputFormat 访问作业的配置
我正在使用 Hadoop，我必须创建自定义 InputFormat。为此，我覆盖了 InputFormat 和 RecordReader 类，就像解释的那样 here 我想访问作业的配置(在运行作业
java - Hadoop MapReduce RecordReader 实现是否必要？
来自 Hadoop MapReduce 上的 Apache 文档 InputFormat界面: "[L]ogical splits based on input-size is insufficien
hadoop - RecordReader 在 Hadoop 中的工作
谁能解释一下 RecordReader 的实际工作原理？ nextkeyvalue()、getCurrentkey() 和 getprogress() 方法在程序开始执行后如何工作？最佳答案 (新
java - 使用 RecordReader 从文件读取 CSV 数据时出错
我想使用 RecodrReader 和 DataSetIterator 加载训练数据集表单文件，但出现错误 java.lang.ExceptionInInitializerError尝试了一下，但它没
java - 如何对自定义 RecordReader 和 InputFormat 类进行单元测试？
我开发了一个 map-reduce 程序。我编写了自定义 RecordReader 和 InputFormat 类。我正在使用 MR Unit 和 Mockito 对 mapper 和 reduce
hadoop - Inputsplit、RecordReader & Map 实例和 Mapper 之间的数据流
如果我有一个包含 1000 行的数据文件......并且我在我的字数统计程序的 map 方法中使用了 TextInputFormat。因此，数据文件中的每一行都将被视为一个拆分。 RecordRead
java - 为什么 Apache Orc RecordReader.searchArgument() 没有正确过滤？
这是一个简单的程序: 将记录写入 Orc 文件然后尝试使用谓词下推 (searchArgument) 读取文件问题: 这是在 Orc 中使用谓词下推的正确方法吗？ read(..) 方法似乎返回了
java - 为什么 Apache Orc RecordReader.searchArgument() 没有成功？
读的时候设置的谓词被下推了，但是从打印结果看好像不行，都打印出来了，这不是我想要的我引用了下面的解决方法，没有解决方法 enter link description here为什么？谢谢! pub
hadoop - WholeFileRecordReader 不能转换为 org.apache.hadoop.mapred.RecordReader
我想在 Hadoop 中创建一个新的数据类型，但我从我的自定义 inputformat 类中得到以下错误这是我的代码: 错误 - WholeFileRecordReader 无法转换为 org.apa
hadoop - 为什么在 Hadoop 中扩展 RecordReader 时同步 close() 方法
我会看一下给定 alexhomes 的 hadoop-book 的例子 here 我不明白为什么关闭方法是同步的？为什么只有 close() 而没有其他方法？ public synchronized
hadoop - 在 Hadoop MapReduce 中为二进制文件创建自定义 InputFormat 和 RecordReader
我正在编写一个 M/R 作业，它处理以二进制格式编写的大型时间序列数据文件，看起来像这样(此处换行是为了便于阅读，显然，实际数据是连续的): TIMESTAMP_1------------------
hadoop - 使用自定义 RecordReader 在 Hadoop 中读取 gzip 文件
我正在编写 MapReduce 代码，其中我必须读取文件名作为键，文件内容作为其值。为此，我发布了 this question on StackOverflow .它适用于文本文件，但开始出现 gzi
java - 线程 "main"java.lang.NoClassDefFoundError : org/apache/hadoop/mapreduce/RecordReader 中的异常
我正在尝试将我的 Json 文件转换为 Parquet 格式。以下是我的pom文件。 4.0.0 com.mypackage JSONToParquet 1.0-

首页

博学

6Ren·AI

商城

hadoop - 在RecordReader初始化之前，Hadoop EMR作业的内存不足