java - 使用 MapReduce 将数据批量插入 HBase-6ren

java - 使用 MapReduce 将数据批量插入 HBase

转载作者：行者123 更新时间：2023-11-29 05:40:15

26

4

我需要向 HBase 表中插入 4 亿行。

架构看起来像这样

我通过简单地将 int 和 int 以及值连接为 System.nanoTime() 来生成 key

我的映射器看起来像这样

public class DatasetMapper extends Tablemapper <Text,LongWritable> {


  private static Configuration conf = HBaseConfiguration.create();


public void map (Text key, LongWritable values, Context context) throws exception {

   // instantiate HTable object that connects to table name 
   HTable htable = new HTable(conf,"temp") // already created temp table 
   htable.setAutoFlush(flase);
   htable.setWriteBufferSize(1024*1024*12);

   // construct key
   int i = 0, j = 0;
   for(i=0; i<400000000,i++) {
       String rowkey = Integer.toString(i).concat(Integer.toString(j));
       Long value = Math.abs(System.nanoTime());
       Put put = new Put(Bytes.toBytes(rowkey));
           put.add(Bytes.toBytes("location"),Bytes.toBytes("longlat"),Bytes.toBytes(value);
       htable.put(put)
       j++;
       htable.flushCommits();
}
}

我的工作是这样的

Configuration config = HBaseConfiguration.create();
Job job = new Job(config,"initdb");
job.setJarByClass(DatasetMapper.class);    // class that contains mapper

TableMapReduceUtil.initTableMapperJob(
null,      // input table
null,            
DatabaseMapper.class,   // mapper class
null,             // mapper output key
null,             // mapper output value
job);
TableMapReduceUtil.initTableReducerJob(
temp,      // output table
null,             // reducer class
job);
job.setNumReduceTasks(0);

boolean b = job.waitForCompletion(true);
if (!b) {
throw new IOException("error with job!");
}

作业运行但插入 0 条记录。我知道我犯了一些错误，但由于我是 HBase 的新手，所以无法发现它。请帮助我。

谢谢

最佳答案

首先，您的映射器名称是DatasetMapper，但在您的作业配置中您指定了DatabaseMapper。我想知道它是如何正常工作的。

接下来，您似乎将 TableMapper 和 Mapper 的用法混合在一起了。 Hbase TableMapper 是一个抽象类，它扩展了 Hadoop Mapper 并帮助我们方便地从 HBase 读取，TableReducer 帮助我们回写到 HBase。您正在尝试从 Mapper 中放入数据，同时您正在使用 TableReducer。您的映射器实际上永远不会被调用。

要么使用 TableReducer 来放置数据，要么只使用 Mapper。如果你真的想在你的 Mapper 中这样做，你可以使用 TableOutputFormat 类。请参阅 HBase 权威指南第 301 页给出的示例。这是 Google Books link

HTH

附言:您可能会发现这些链接有助于正确学习 HBase+MR 集成:

Link 1.

Link 2.

关于java - 使用 MapReduce 将数据批量插入 HBase，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17883662/

26

4

0

文章推荐： java - 使用 EL 向下转换

文章推荐： php - 图像链接存储在数据库中

文章推荐： java - JPA 不插入数据库，为什么？

文章推荐： java - 虚拟键盘与 Nimbus 冲突

hbase - HBase 什么时候真正删除一行？
发出时Delete对于 hbase，我知道它不会立即删除数据。但是什么时候删除数据，我的意思是，物理上？最佳答案当您向 HBase 写入内容时，它会存储在内存存储 (RAM) 中，然后再写入磁盘。
hbase - HBase 会在不同机器上存储同一行的列族吗？
同一行的列族属于同一个 RegionServer。那么，这里的问题是一个 RegionServer 会在不同的机器上存储不同的列族吗？最佳答案不一定，但在某些时候它会。这是基本 HBase 架构
hbase - hbase 中是否有最大版本号？
如果我想插入表格: row | fam:qualifier | timestamp | value 1 | foo:bar | 12345 | 2 1 | foo:bar | 12346 | 3 1
hbase - 如何停止在 hbase shell 中运行的命令而不退出 hbase shell
有时我想退出我在 HBase shell 中运行的命令，例如扫描操作通常需要太多时间。所以我想停止运行这个命令，但我不想退出 HBase shell。我常用的停止运行命令的方式，我使用了Ctrl+
hbase - Hbase 中的多个数据库或命名空间
有没有办法设置 Hbase 以便我们可以在同一个集群中创建多个数据库？最佳答案只是为了刷新主题:http://hbase.apache.org/book.html#namespace 5.3.1.
hbase - 我使用的是哪个版本的 hbase？
怎么看version的 hbase我在用？你能下命令吗？最佳答案 hbase version命令行界面中的命令给出了 version的 hbase正在使用中。以下是来自 Cloudera 的两个
hbase - HBase 是否对每行施加了最大大小？
高级问题: HBase 是否对所有分布(因此不是实现的工件)通用的每行施加了最大大小，无论是在方面吗？字节存储或在方面细胞数 ? 如果是这样: 限制是什么？极限存在的原因是什么？限制在哪里记
hbase - 将数据仓库星型模式映射到 HBASE
假设，假设我在数据仓库设置中有一个星型模式。有一个非常非常长的事实表(想想几十亿到几万亿行)和几个低基数维度表(想想 100 个维度表)。每个事实表外键指向一个维度表的主键是位图索引的。每个维度表
hbase - 如何确保 HBase Java 客户端正在使用 hbase-site.xml
版本:Hadoop: 2.0.0-cdh4.3.1 HBase: 0.94.6-cdh4.3.1 我正在运行 cloudera quick start vm，这是我的小型远程 HBase Java 客
ubuntu - HBase - 运行 start-hbase.sh 时出现完全分布式 HBase 错误
我正在尝试以完全分布式模式配置 HBase。 (使用 Ubuntu 12.04，Apache Hadoop 2.2(以伪模式运行，HBase 版本 0.98) 以下是我的 bashrc 设置: exp
hbase - hbase-site.xml 中的 hbase.zookeeper.quorum 是什么
我想知道如何正确配置 hbase.zookeeper.quorum 以将 zookeeper 实例指向集群模式。最佳答案 hbase.zookeeper.quorum 属性是运行 ZooKeeper
hbase - hbase-site.xml 中的 hbase.zookeeper.quorum 是什么
我想知道如何正确配置 hbase.zookeeper.quorum 以将 zookeeper 实例指向集群模式。最佳答案 hbase.zookeeper.quorum 属性是运行 ZooKeeper
hadoop - Hbase mapside join-其中一张表没有被读取？从 hbase 中读取正确的结果到 hbase
我正在尝试对位于 Hbase 中的两个表进行映射连接。我的目的是在hashmap中保留小表的记录并与大表进行比较，一旦匹配，再次将记录写入hbase中的表中。我使用 Mapper 和 Reducer
hadoop - HBase ERROR : hbase-default. xml 文件似乎是针对旧版本的 HBase (null)
我正在尝试编写一个程序来连接到 HBase。但是当我执行以下命令时HBaseConfiguration.create();我收到以下错误:. "hbase-default.xml 文件似乎是旧版本的
hbase - 为什么说 HBase 行按字典顺序存储？
基于HBase documentation ，再次遵循 Google BigTable 论文的引用，据说这些行是按行键的字典顺序存储的。很明显，当我们在 rowkey 中有一个字符串或者如果我们将一
hbase - 如何进行 hbase 范围扫描？
我有一个 hbase 表，其中的行键如 row1、row2、row3 .... 和 rowN，我想要的是获取行键从 row100 到 row200 的行，如何编写查询子句或将 hbase 表设计为让查
hbase - 在 HBASE 上创建命名空间
我正在尝试创建命名空间，但出现类似下面给出的错误 hbase(main):031:0> create namespace 'Aniruddha'
hbase - 适用的 HBase 表模型
我发现为以下要求建模 HBase 表有困难。我有一个表“商店”，它存储了商店的详细信息(必胜客)。我有一个表格“订单”，其中包含交易摘要(总交易金额等...)。我有另一个表“Order_Item
hbase - 在不禁用 HBASE 表的情况下更改表结构的含义
谁能告诉我如果在不首先禁用表的情况下使用“alter”命令可能影响表结构的可能影响？据我所知，禁用表意味着关闭与表的所有连接。如果我在不禁用表的情况下使用 alter，可能会发生什么异常情况？我正
hbase - 无法从 HBase 导出表
我无法将表从 HBase 导出到 HDFS。下面是错误跟踪。它是相当大的尺寸。还有其他方法可以导出吗？我使用以下命令导出。我增加了 rpc 超时，但工作仍然失败。 sudo -u hdfs hbas

首页

博学

6Ren·AI

商城

java - 使用 MapReduce 将数据批量插入 HBase