java - Hadoop - 直接从 Mapper 写入 HBase-6ren

java - Hadoop - 直接从 Mapper 写入 HBase

转载作者：可可西里更新时间：2023-11-01 14:13:48

25

4

我有一个 haddop 作业，它的输出应该写入 HBase。我真的不需要 reducer，我想插入的行类型在 Mapper 中确定。

如何使用 TableOutputFormat 来实现这一点？从我看到的所有示例中，假设是 reducer 是创建 Put 的那个，而 TableMapper 只是用于从 HBase 表中读取。

在我的例子中，输入是 HDFS，输出是 Put to specific table，我在 TableMapReduceUtil 中也找不到任何可以帮助我的东西。

是否有任何示例可以帮助我解决这个问题？

顺便说一句，我正在使用新的 Hadoop API

最佳答案

这是从文件中读取并将所有行放入 Hbase 的示例。此示例来自“Hbase:权威指南”，您可以在存储库中找到它。要获取它，只需在您的计算机上克隆 repo:

git clone git://github.com/larsgeorge/hbase-book.git

在本书中，您还可以找到有关代码的所有解释。但如果您有什么不明白的地方，请随时提问。

`    public class ImportFromFile {
     public static final String NAME = "ImportFromFile"; 
     public enum Counters { LINES }

     static class ImportMapper
     extends Mapper<LongWritable, Text, ImmutableBytesWritable, Writable> { 
       private byte[] family = null;
       private byte[] qualifier = null;

       @Override
       protected void setup(Context context)
         throws IOException, InterruptedException {
         String column = context.getConfiguration().get("conf.column");
         byte[][] colkey = KeyValue.parseColumn(Bytes.toBytes(column));
         family = colkey[0];
         if (colkey.length > 1) {
           qualifier = colkey[1];
         }
       }

       @Override
       public void map(LongWritable offset, Text line, Context context) 
       throws IOException {
          try {
           String lineString = line.toString();
           byte[] rowkey = DigestUtils.md5(lineString); 
           Put put = new Put(rowkey);
           put.add(family, qualifier, Bytes.toBytes(lineString)); 
           context.write(new ImmutableBytesWritable(rowkey), put);
           context.getCounter(Counters.LINES).increment(1);
         } catch (Exception e) {
           e.printStackTrace();
         }
       }
     }

     private static CommandLine parseArgs(String[] args) throws ParseException { 
       Options options = new Options();
       Option o = new Option("t", "table", true,
         "table to import into (must exist)");
       o.setArgName("table-name");
       o.setRequired(true);
       options.addOption(o);
       o = new Option("c", "column", true,
         "column to store row data into (must exist)");
       o.setArgName("family:qualifier");
       o.setRequired(true);
       options.addOption(o);
       o = new Option("i", "input", true,
         "the directory or file to read from");
       o.setArgName("path-in-HDFS");
       o.setRequired(true);
       options.addOption(o);
       options.addOption("d", "debug", false, "switch on DEBUG log level");
       CommandLineParser parser = new PosixParser();
       CommandLine cmd = null;
       try {
         cmd = parser.parse(options, args);
       } catch (Exception e) {
         System.err.println("ERROR: " + e.getMessage() + "\n");
         HelpFormatter formatter = new HelpFormatter();
         formatter.printHelp(NAME + " ", options, true);
         System.exit(-1);
       }
       return cmd;
     }

     public static void main(String[] args) throws Exception {
       Configuration conf = HBaseConfiguration.create();
       String[] otherArgs =
         new GenericOptionsParser(conf, args).getRemainingArgs(); 
       CommandLine cmd = parseArgs(otherArgs);
       String table = cmd.getOptionValue("t");
       String input = cmd.getOptionValue("i");
       String column = cmd.getOptionValue("c");
       conf.set("conf.column", column);
       Job job = new Job(conf, "Import from file " + input + " into table " + table); 

            job.setJarByClass(ImportFromFile.class);
       job.setMapperClass(ImportMapper.class);
       job.setOutputFormatClass(TableOutputFormat.class);
       job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, table);
       job.setOutputKeyClass(ImmutableBytesWritable.class);
       job.setOutputValueClass(Writable.class);
       job.setNumReduceTasks(0); 
       FileInputFormat.addInputPath(job, new Path(input));
       System.exit(job.waitForCompletion(true) ? 0 : 1);
     }
    }`

关于java - Hadoop - 直接从 Mapper 写入 HBase，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11061854/

25

4

0

文章推荐： database - HBase如何保证行级原子性？

文章推荐： java - 如何产生海量数据？

文章推荐：多核机器上的 Hadoop 和 map-reduce

文章推荐： c# - 从 Windows 服务打开对话窗口

C 直接/显式传递参数
如果我在 C 中调用一个函数并传入一个结构(对那些 C++ 读者来说不是通过指针或引用)，它会复制该对象。如果我传入一个包含数组的结构，它会复制该数组(如教授在类里面所说)。但是，如果我传入一个包含对
vim - 如何*直接*增加光标下的数字？
在 vim 等中，您可以使用 CTRLA 和 CTRLX 增加或减少光标所在的数字。然而，这会增加总数，但我想简单地增加光标正下方的数字。这有点难以描述，所以这就是我的意思: Ctrl+A usage
java - 直接 PropertyAccessor 的替代品？
我正在将 Spring 4.3.2 项目升级到 Spring 5.1.5。我的一个测试用例开始因错误而失败。 ClassNotFoundException: org.hibernate.propert
Java:直接 IntBuffer 的大小限制？
我想在 Java 中分配一个直接 IntBuffer，比如说 10 亿个元素(64 位系统)。我知道的唯一方法是创建一个直接 ByteBuffer 并将其视为直接 IntBuffer。但是，4*1,0
ajax - 直接 AJAX 打印
我正在寻找特定的打印机或某些打印机上存在的技术(接口(interface)、标准、协议(protocol))，这使得可以使用 AJAX 从 Web 浏览器实现直接打印。这意味着打印机必须: 网络接口
php - 直接 URL 和删除确认表
我正在寻求实现删除确认表单的最佳实践建议。除其他选项外，以下页面包含删除按钮... /website/features/f/123 ...当点击一个简单的表单时，会在以下 url 下加载: /web
java - 直接 Web 远程处理异步问题
我正在使用直接 Web 远程处理库在我的应用程序中执行一些 ajax 调用。我有一个问题，我认为归结为服务调用的延迟响应。以下是我认为有问题的部分代码。问题出在 getDefaultReviewerT
Javascript 直接 confirm() 函数替换
我想替换 Javascript confirm() 函数以允许自定义按钮而不是 Yes/Cancel。我尝试搜索，但所有解决方案都是事件驱动的，例如 jquery 对话框(代码不等待响应但它是事件驱动
java - 路径、相对、直接
我知道有几个类似的问题，但是，其中的示例并没有说明问题，或者我无法从中获利 - 我真可耻。所以我的问题是在带有 GUI 的简单应用程序中加载图像。例如: 我在 "D:\javaeclipseprog
html - 直接 child 的备用表行颜色
我想用不同的颜色为表格的行着色，所以我正在使用它 table#news tr:nth-child(even) { background-color: red; } table#news
java - 如何在Camel中使用**直接**端点实现并行处理？
下面的测试代码不起作用 from("direct:start").setExchangePattern(ExchangePattern.InOnly).threads(5).delay(2000).b
python - 直接 "plot"线段到numpy数组
我在 python 中实现的第一个项目之一是对棒渗流进行蒙特卡罗模拟。代码不断增长。第一部分是棍子渗滤的可视化。在宽度*长度的区域中，使用随机起始坐标和方向绘制具有一定长度的直棒的定义密度(棒/面积)
php - 跟踪(直接)文件下载的最佳方式
跟踪直接文件下载的最佳方法是什么？我找到了一些解决方案，例如这个: http://www.gayadesign.com/diy/download-counter-in-php-using-htacce
java - 直接 ByteBuffer 之前发生
我在一个线程中有一个直接的 ByteBuffer(堆外)，并使用 JMM 给我的一种机制将它安全地发布到另一个线程。 happens-before 关系是否扩展到由 ByteBuffer 包装的 na
java - 直接 ByteBuffer 相对与绝对读取性能
当我测试直接 java.nio.ByteBuffer 的读取性能时，我注意到绝对读取平均比相对读取快 2 倍。此外，如果我比较相对读取与绝对读取的源代码，除了相对读取维护和内部计数器外，代码几乎相同。
Angular 直接 DOM 访问？
我知道这个问题已经被问了无数次，并且在很多情况下都得到了答案。我相信我已经阅读了其中的大部分内容。不幸的是，我在这上面能找到的一切简单说明 ElementRef.nativeElement不好，不要
c - 直接 C 程序中的错误处理有什么好的习惯用法吗？
回到一些 C 语言工作。我的许多函数看起来像这样: int err = do_something(arg1, arg2, arg3, &result); 根据意图，结果由函数填充，返回值是调用的状态
xml - Worldpay 直接 XML
当我将 XML 提交到 https://secure-test.WorldPay.com/jsp/merchant/xml/paymentService.jsp 时: Personalised
opengl - XNA, 直接 X , OpenGL
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Angular 直接 url 路由总是重定向到/home
我的 Angular 路由行为有问题。刷新或输入的 url 像/user 总是将我重定向到/home。我还在 index.html 文件中设置了。通过单击导航菜单按钮一切正常。但是一旦我尝试刷新页面

首页

博学

6Ren·AI

商城

java - Hadoop - 直接从 Mapper 写入 HBase