hadoop - 以受控方式拆分 SequenceFile

hadoop - 以受控方式拆分 SequenceFile - Hadoop

转载作者：可可西里更新时间：2023-11-01 14:16:18

25

4

hadoop 以键值对(记录)格式写入 SequenceFile。考虑我们有一个大的无界日志文件。 Hadoop 会根据 block 大小拆分文件，并将它们保存在多个数据节点上。是否保证每个键值对都位于一个 block 上？或者我们可能遇到这样一种情况，即键在节点 1 的一个 block 中，而值(或其中的一部分)在节点 2 的第二个 block 中？如果我们可能有无意义的完全 split ，那么解决方案是什么？同步标记？

另一个问题是:hadoop是自动写sync markers还是我们自己写？

最佳答案

我在 hadoop 邮件列表中问过这个问题。他们回答:

Sync markers are written into sequence files already, they are part of the format. This is nothing to worry about - and is simple enough to test and be confident about. The mechanism is same as reading a text file with newlines - the reader will ensure reading off the boundary data in order to complete a record if it has to.

然后我问:

So if we have a map job analysing only the second block of the log file, it should not transfer any other parts of that from other nodes because that part is stand alone and meaning full split? Am I right?

他们回答:

Yes. Simply put, your records shall never break. We do not read just at the split boundaries, we may extend beyond boundaries until a sync marker is encountered in order to complete a record or series of records. The subsequent mappers will always skip until their first sync marker, and then begin reading - to avoid duplication. This is exactly how text file reading works as well -- only here, it is newlines.

关于hadoop - 以受控方式拆分 SequenceFile - Hadoop，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8405671/

25

4

0

文章推荐： hadoop - 什么是 sqoop 中的 --direct 模式？

文章推荐： hadoop - hadoop fs -put 和 hadoop distcp 之间的区别

文章推荐： java - 漏斗分析计算，你会如何计算一个漏斗？

java - EOFException 在 org.apache.hadoop.io.SequenceFile$Reader.init(SequenceFile.java :1508)
我试图运行 Norstadt 先生在以下链接下提供的矩阵乘法示例 http://www.norstad.org/matrix-multiply/index.html .我可以使用 hadoop 0.2
java - InputStream到Hadoop SequenceFile
我有一个代表序列文件的通用输入流。我想从中创建一个SequenceFile.Reader或类似的类，而无需将输出流写入磁盘上的临时文件。是否有一些事情让我从输入流转到允许我从输入流中读取键/值对的东西
hadoop - SequenceFile.Writer的sync和syncFs是什么意思？
环境:Hadoop 0.20.2-cdh3u5 我正在尝试使用使用 SequenceFile.Writer 的自定义工具将日志数据 (10G) 上传到 HDFS。 SequenceFile.Write
hadoop - 使用 SequenceFile 类写入文件
我使用以下代码将一些数据写入 SequenceFile 格式文件。当程序运行一段时间时，我通过 Eclipse 控制台上的红色按钮中断程序。但是，当我检查 hdfs 上的数据文件时，序列文件的大小为零
java - 具有Java类的Hive SequenceFile；只需传递给toString()
我有一个Hadoop SequenceFile，其中的键是IntWritable，值是实现Writable的任意Java类，并带有有趣的toString()方法。我想制作一个两列Hive表，其中第一列
java - Hadoop SequenceFile-记录的自动增量键
我正在考虑使用SequenceFile作为“小数据库”来存储小文件。我需要并发客户端可以在此SequenceFile中存储小文件并检索唯一的ID(记录的键)。有可能吗？我是hadoop的新手，正在阅
java - Hadoop SequenceFile 二进制文件安全吗？
我看了hadoop-1.0.4源码中的SequenceFile.java。我找到了 sync(long) 方法它用于在将 SequenceFile 拆分为 MapReduce 中的文件拆分时在 Seq
hadoop - WebHDFS 和 SequenceFiles
WebHDFS 真的不支持 SequenceFiles 吗？我找不到任何说明它确实如此的东西。我遇到了常见的小文件问题，并且相信 SequenceFiles 可以正常工作，但我需要使用 WebHDF
hadoop - SequenceFile 作为带有自定义类的文本 CLI
我有一个 SequenceFile 格式的 HDFS 文件。键是 Text，值是自定义可序列化类(例如)MyCustomClass。我想通过 hadoop fs -text 命令读取此文件，但它失败了
Hadoop SequenceFile 与可拆分 LZO
我们正在选择存储原始日志的文件格式，主要要求是压缩和可拆分。 block 压缩(以编解码器为准)SequenceFiles和 Hadoop-LZO到目前为止看起来最合适。哪一个被Map-Reduce
java - Hadoop 追加到 Sequencefile
目前我使用以下代码附加到现有的 SequenceFile: // initialize sequence writer Writer writer = SequenceFile.createWrite
java - 为什么 SequenceFile 被截断了？
我正在学习Hadoop，这个问题困扰了我一段时间。基本上，我正在将一个 SequenceFile 写入磁盘，然后将其读回。但是，每次读取时都会得到一个EOFException。更深层次的观察发现，在写
apache - 如何检查缺少完整模式信息的 Hadoop SequenceFile？
我有一个来自客户的压缩 Hadoop 序列文件，我想检查一下。我目前没有完整的架构信息(我正在单独处理)。但在此期间(并希望有一个通用解决方案)，我有哪些检查文件的选项？我找到了一个工具 forq
hadoop - 以受控方式拆分 SequenceFile - Hadoop
hadoop 以键值对(记录)格式写入 SequenceFile。考虑我们有一个大的无界日志文件。 Hadoop 会根据 block 大小拆分文件，并将它们保存在多个数据节点上。是否保证每个键值对都位
hadoop - HDFS 追加到 SequenceFile 很慢
附加到 SequenceFiles 似乎很慢。我们将文件夹(其中包含小文件)转换为 SequenceFiles，使用文件名作为键，内容作为值。但是，吞吐量非常低，大约为 2MB/s(每秒大约 2 到
java - Mahout:将一个大文本文件转换为 SequenceFile 格式
我在网上为此做了很多搜索，但我什么也没找到，尽管我觉得它一定有些常见。我过去曾使用 Mahout 的 seqdirectory 命令来转换包含文本文件的文件夹(每个文件都是一个单独的文档)。但在这种情
java - 为什么 SequenceFile writer 的附加操作会用最后一个值覆盖所有值？
首先，考虑这个 CustomWriter 类: public final class CustomWriter { private final SequenceFile.Writer writer
hadoop - 为什么 Hadoop SequenceFile 写比读慢很多？
我正在使用 Java API 将我拥有的一些自定义文件转换为 hadoop 序列文件。我正在从本地文件读取字节数组并将它们作为索引(整数)- 数据(字节[])对附加到序列文件: InputStrea
java - SequenceFile 到 .txt 转换
有什么方法可以将序列文件转换为.txt 文件吗？ sequencefile 是在 hadoop 作业之后生成的，当我尝试使用 SequenceFileReader 读取它时给我一个 EOFExcept
工作流中中间作业的 Hadoop SequenceFile 输入/输出
我有一个多阶段/作业 mapreduce 程序。我的第一个输入必须是 TextInputFormat，最后一个输出必须是 TextOutputFormat。我想要实现的是在第一个作业中将格式从 Tex

首页

博学

6Ren·AI

商城

hadoop - 以受控方式拆分 SequenceFile - Hadoop