java - 在 Hadoop 中是否可以为 TextOutputFormat 指定记录分隔符-6ren

java - 在 Hadoop 中是否可以为 TextOutputFormat 指定记录分隔符

转载作者：可可西里更新时间：2023-11-01 14:18:49

25

4

我看到一种机制可以使用 mapreduce.textoutputformat.separator(使用 1.03 的 api)覆盖键和值之间的分隔符。但我希望能够控制记录之间的分隔符。仅供引用，我使用 ArrayWritable 作为值，使用 NullWritable 作为键。

最佳答案

据我所知，这是不可能的，因为 TextOutputFormat 使用 toString() 来获取值的文本表示，在 ArrayWritable< 的情况下 它没有实现 toString()，所以如果您要编写一个 ArrayWritable，您可能会得到默认的 Object.toString() 到您的 Reducer 的输出。或者您可能打算更改行之间的分隔符，在这种情况下，这与 TextOutputFormat 默认使用 \n 字符的问题相同，如 climbage 所指出的那样。

也就是说，您可以通过实现自定义输出格式来实现，您可以在其中定义自己的 RecordWriter 并在 getRecordWriter 方法中拥有自定义配置属性。这是这样一个类(未测试)的快速和肮脏的实现，它应该做你需要的，让你通过属性 mapred.arraywritable.separator ArrayWritable 的分隔符strong> 和带有 mapred.line.separator 的行之间的分隔符:

import java.io.DataOutputStream; import java.io.IOException; import java.io.UnsupportedEncodingException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.ArrayWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.compress.CompressionCodec; import org.apache.hadoop.io.compress.GzipCodec; import org.apache.hadoop.mapreduce.RecordWriter; import org.apache.hadoop.mapreduce.TaskAttemptContext; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.ReflectionUtils; public class ArrayTextOutputFormat<K, V> extends TextOutputFormat<K, V> { protected static class ArrayLineRecordWriter<K, V> extends LineRecordWriter<K, V> { private static final String utf8 = "UTF-8"; private final byte[] arraySeparator; private final byte[] keyValueSeparator; private final byte[] lineSeparator; public ArrayLineRecordWriter(DataOutputStream out, String keyValueSeparator, String arraySeparator, String lineSeparator) { super(out); try { this.keyValueSeparator = keyValueSeparator.getBytes(utf8); this.arraySeparator = arraySeparator.getBytes(utf8); this.lineSeparator = lineSeparator.getBytes(utf8); } catch (UnsupportedEncodingException uee) { throw new IllegalArgumentException("can't find " + utf8 + " encoding"); } } private void writeObject(Object o) throws IOException { if (o instanceof Text) { Text to = (Text) o; out.write(to.getBytes(), 0, to.getLength()); } else if (o instanceof ArrayWritable) { ArrayWritable awo = (ArrayWritable) o; for (String wrt : awo.toStrings()) { out.write(wrt.toString().getBytes(utf8)); out.write(arraySeparator); } } else { out.write(o.toString().getBytes(utf8)); } } public synchronized void write(K key, V value) throws IOException { boolean nullKey = key == null || key instanceof NullWritable; boolean nullValue = value == null || value instanceof NullWritable; if (nullKey && nullValue) { return; } if (!nullKey) { writeObject(key); } if (!(nullKey || nullValue)) { out.write(keyValueSeparator); } if (!nullValue) { writeObject(value); } out.write(lineSeparator); } } public RecordWriter<K, V> getRecordWriter(TaskAttemptContext job) throws IOException, InterruptedException { Configuration conf = job.getConfiguration(); boolean isCompressed = getCompressOutput(job); String keyValueSeparator = conf.get( "mapred.textoutputformat.separator", "\t"); String arraySeparator = conf.get("mapred.arraywritable.separator", "|"); String lineSeparator = conf.get("mapred.line.separator"); CompressionCodec codec = null; String extension = ""; if (isCompressed) { Class<? extends CompressionCodec> codecClass = getOutputCompressorClass( job, GzipCodec.class); codec = (CompressionCodec) ReflectionUtils.newInstance(codecClass, conf); extension = codec.getDefaultExtension(); } Path file = getDefaultWorkFile(job, extension); FileSystem fs = file.getFileSystem(conf); if (!isCompressed) { FSDataOutputStream fileOut = fs.create(file, false); return new ArrayLineRecordWriter<K, V>(fileOut, keyValueSeparator, arraySeparator, lineSeparator); } else { FSDataOutputStream fileOut = fs.create(file, false); return new ArrayLineRecordWriter<K, V>(new DataOutputStream( codec.createOutputStream(fileOut)), keyValueSeparator, arraySeparator, lineSeparator); } } }

关于java - 在 Hadoop 中是否可以为 TextOutputFormat 指定记录分隔符，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16927929/

25

4

0

文章推荐： c++ - 重复创建和删除同一目录时拒绝访问

文章推荐： java - 相同的关键不同的 reducer (HADOOP)？

文章推荐： windows - grunt-contrib-build' 不在 npm 注册表中

文章推荐： hadoop - 空值从 csv 文件上传到配置单元表

listview - 列表项之间的 Flutter SliverList 分隔符/分隔符
使用 ListView.separated 我们可以在列表项之间添加 Divider()，但是，一旦我转换到 SliverList，我就看不到我的分隔线了。 delegate: SliverChild
listview - 列表项之间的 Flutter SliverList 分隔符/分隔符
使用 ListView.separated 我们可以在列表项之间添加 Divider()，但是，一旦我转换到 SliverList，我就看不到我的分隔线了。 delegate: SliverChild
javascript - AngularJS Ng-repeat html 分隔符/分隔符
我对 Angular 还很陌生。我有一个由一些数据填充的列表项: {{content.Company}} {{content.Town}}, {{content.P
swift - 如何从 SwiftUI 中的列表中删除 "row"分隔符/分隔符？
我正在尝试从 SwiftUI 中的 List 中删除“行”分隔符(在 SwiftUI 中称为分隔符)。我浏览了 List 文档，但我没能找到它的修饰符。如有任何帮助，我们将不胜感激。最佳答案 i
网格按钮之间的 WPF 分隔符
我有一个带有 4 个按钮的网格...1 行 4 列。我正在寻找一种方法将左侧的两个按钮与右侧的两个按钮进行视觉分组。我一直在寻找一种使用分隔符执行此操作的方法，但它似乎与 Grid 一起玩得不好，更喜
R:删除空格 + 分隔符
我对 R 语言相当陌生。所以我有这个包含以下内容的向量: > head(sampleVector) [1] "| txt01 | 100 | 200 | 123.456
Excel 字符串连接使用“分隔符
我正在尝试连接两列中的值，当我使用 =CONCAT(A2,",",B2) 时，它将连接两列并获得正确的结果 (P0810,P1)。但我正在寻找的是这样的东西(“P0810”，“P1”)。我尝试了 =C
javascript - 编辑编号显示上的剑道网格 `,` 分隔符
我在这里创建了一个简单的演示。在 amount 字段编辑时，我想显示 , 分隔符？目前，它仅在不处于编辑模式时显示 ,。知道如何实现这一目标吗？ DEMO IN DOJO var data = [{
java - 连接字符串数组 + 分隔符
这里是java菜鸟... 这让我抓狂，因为我知道这很简单，但我已经为此工作了 30 分钟...... 这是来自代码战斗: 对于参数 = ["Code", "Fight", "On", "!"] 且分隔
python - 如何添加pywin32托盘图标菜单分隔符/分隔符？
基于这个pywin32基础script如何向托盘菜单 menu_options 添加分隔符？我还可以让菜单在左键单击时弹出，而不仅仅是右键单击吗？最佳答案将 notify 函数(从 URL 中的
java - 字符串分词器，分隔符
我正在使用这段代码: StringTokenizer tokenizer=new StringTokenizer(line, "::"); 拆分以下字符串: hi my name is visghal
python - 正则表达式帮助 - 分隔符
- Dropbox login fix - Updated iris viewer * other aspects are to be improved + fix crash on viewing
android - 如何在菜单组之间添加分隔符/分隔符？
我试图在每个菜单组之间显示一个分隔线。我已经尝试过为每个组提供一个唯一的 ID，但这没有用。我找到了一些其他解决方案，但它们看起来有点奇怪，比如创建高度为 1dp 的 LinearLayout。这是
mysql - CONCAT_WS 分隔符
我想为 CONCAT_WS() 选择一个与字段值不冲突的分隔符例如，如果我选择“，”，则字段值可能包含带有“，”的字符串我想选择一个与字段值不冲突的分隔符:( 最佳答案来自here : CONCAT
mysql - Sphinx - 分隔符
我想知道 Sphinx 引擎是否可以使用任何定界符(如普通 MySQL 中的逗号和句点)。我的问题来自于一种冲动，根本不使用它们，而是逃避它们，或者至少在使用 FULLTEXT 搜索执行 MATCH
CSS3/SVG 分隔符
我正在尝试使用 svg 或纯 css3 制作 header 分隔符，如下所示: preview from design 在 header 中我有标准的 bootstrap 4 轮播
CSS 分隔符/文本定位
我在使用 CSS 分隔符时遇到了一些难题。看看:http://jsfiddle.net/fVxC6/1/ .div-line { border-bottom: 1px solid #f0f0f
css - CSS中两个不同的水平小时/分隔符
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。关闭 7 年前。编辑问题以包含 desired behavior, a specific probl
C++ getline() 分隔符
嘿，我正在尝试使用 getline 读取以下行 (15,0,1,#) (2,11,2,.) (3,20,0,S) 我希望能够将整数提取为 int，将字符提取为 char，但我不知道如何只提取它们。最
整理列上的 CSS 分隔符
我有 2 列，每边 float 一列，我想使用 1px 宽度的线分隔符，从最长列的顶部到底部。我宁愿远离 TABLE 布局，而且我不知道哪一个将是最长的列，或者它会有多长。我怎么能只用 css 做

首页

博学

6Ren·AI

商城

java - 在 Hadoop 中是否可以为 TextOutputFormat 指定记录分隔符