hadoop - 使用 Flume Serializer 生成复合 hbase rowkey-6ren

hadoop - 使用 Flume Serializer 生成复合 hbase rowkey

转载作者：可可西里更新时间：2023-11-01 15:11:22

26

4

我有这样的 GIS 数据 -

'111, 2011-02-01 20:30:30, 116.50443, 40.00951'  
'111, 2011-02-01 20:30:31, 116.50443, 40.00951'  
'112, 2011-02-01 20:30:30, 116.58197, 40.06665'  
'112, 2011-02-01 20:30:31, 116.58197, 40.06665'

第一列是 driver_id ，第二个是 timestamp , 第三个是 longitude &第四个是latitude .

我正在使用 Flume 摄取此类数据，我的接收器是 HBase(类型 - AsyncHBaseSink)。
默认情况下，HBase 将 rowkey 分配为第一列(如 111)。我想创建一个复合行键(例如前两列 111_2011-02-01 20:30:30 的组合)。
我尝试将所需的更改放入 ' AsyncHbaseLogEventSerializer.java ' 但他们没有反射(reflect)出来。

请建议我该怎么做。

最佳答案

复合键应该在 AsyncHbaseSerializer 中工作

下面是示例代码片段。

在类级别声明privae List<PutRequest> puts = null;

 /**
     * Method joinRowKeyContent. (with EMPTY string separation)
     * 
      * Joiner is google guava class
     * @param objArray Object...
     * 
     * @return String
     */
    public static String joinRowKeyContent(Object... objArray) {
        return Joiner.on("").appendTo(new StringBuilder(), objArray).toString();
    }

 /**
     * Method preParePutRequestForBody.
     * 
     * @param rowKeyBytes
     * @param timestamp
     */
    private void preParePutRequest(final byte[] rowKeyBytes, final long timestamp) {
        // Process 

            LOG.debug("Processing ..." + Bytes.toString(rowKeyBytes));

        final PutRequest putreq = new PutRequest(table, rowKeyBytes, colFam, Bytes.toBytes("yourcolumn"), yourcolumnasBytearray, timestamp);
        puts.add(putreq);
    }

Your get actions method looks like...

  @Override
        public List<PutRequest> getActions() {
//create rowkey like this
    final String rowKey = joinRowKeyContent(driver_id, timestamp, longitude , latitude);

    // call prepare put requests method here 
    final byte[] rowKeyBytes = Bytes.toBytes(rowKey);
                puts.clear();
     preParePutRequest(rowKeyBytes ,<timestamp>)
            return puts;
        }

关于hadoop - 使用 Flume Serializer 生成复合 hbase rowkey，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37696145/

26

4

0

文章推荐： c++ - Steady_Clock 在主游戏循环的更新之间跳过

文章推荐： hadoop - 从vertica导入数据到hive

文章推荐： scala - Spark Streaming textFileStream 复制

文章推荐： http - Nginx proxy_cache_key $request_body 被大请求体忽略

serialization - $(this).serialize() -- 如何添加值？
目前我有以下内容: $.ajax({ type: 'POST', url: this.action, data: $(this).serialize(), }); 这工作正常，
serialization - $(this).serialize() -- 如何添加一个值？
目前我有以下内容: $.ajax({ type: 'POST', url: this.action, data: $(this).serialize(), }); 这很好用，但
serialization - 术语 "serialization"来自哪里？
我知道什么是序列化，但对我来说，这是一个无法描述其含义的术语。为什么我们称序列化为序列化？将对象转换为原始数据(以及膨胀/反序列化，就此而言)有什么意义？谁创造了这个术语，为什么？最佳答案它可能
serialization - boost::serialization - 转换为字符串
是否可以将数据结构(使用 boost::serialization)序列化为字符串变量或缓冲区(而不是磁盘上的文件)？最佳答案当然，让它在stringstream上完成工作。关于serializ
serialization - "Serialize"VHDL 记录
假设我有以下类型定义，它依赖于常量来指示记录成员的向量长度: type point_t is record x: std_logic_vector(X_WIDTH-1 downto 0);
serialization - boost.serialization 的输出格式是什么
我尝试序列化一个向量和一个 map 容器，并通过 cout 输出它们的值。然而，我很难理解boost输出的含义。我的代码如下所示: #include #include #include #
serialization - 添加 Serialize 属性以从第三方库键入
我正在尝试将序列化功能添加到我的 Rust 结构之一。这是一个日历事件，看起来像这样: #[derive(PartialEq, Clone, Encodable, Decodable)] pub st
serialization - boost::serialization 序列化过程中内存消耗高
正如主题所暗示的那样，在将大量数据序列化到文件时，我遇到了 boost::serialization 的一个小问题。问题在于应用程序的序列化部分的内存占用大约是被序列化对象内存的 3 到 3.5 倍。
c# - 无法将类型为 'MongoDB.Bson.Serialization.Serializers.DateTimeSerializer' 的对象转换为类型 'MongoDB.Bson.Serialization.IBsonSerializer`
在搜索解决方案时，我得到了 this和 this但我不清楚这个概念，所以无法实现:(。当我尝试更新数据库中的值(特别是日期时间对象)时会发生此错误。以下是我正在使用的代码:- var upd
django 对象不能使用 serializers.serialize 进行迭代
我收到以下错误，模板对象不可迭代 def get_AJAX(request, id): data = serializers.serialize("json", Template.objec
serialization - Julia:serialize()/deserialize() 有多稳定
由于方便，我正在考虑对我的所有数据 i/o 使用 serialize() 和 deserialize()。但是，我不想在 Julia 更新中被不可读的文件所困扰。 serialize() 和 dese
serialization - 使用 JMS Serializer 包添加额外字段
我有一个通常使用 JMS Serializer 包序列化的实体。我必须在序列化中添加一些不驻留在实体本身中但通过一些数据库查询收集的字段。我的想法是创建一个自定义对象，用实体字段填充字段并添加自定义
grails - org.apache.xml.serializer.ToXMLSAXHandler 在使用 XmlUtil.serialize() 时无法在 JBOSS 中强制转换为 org.apache.xml.serializer.SerializationHandler
我正在尝试使用 XmlParser 从 xml 文件中删除和添加标签。以下是我在使用“grails run-app”命令部署的 grails 应用程序中执行时运行良好的代码块: def parser
hadoop - java.lang.ClassCastException : org. apache.hadoop.io.serializer.WritableSerialization 无法转换为 org.apache.hadoop.io.serializer.Serialization
我正在使用 MRUnit 测试 MultipleOutputs。测试用例失败并显示以下消息。 java.lang.ClassCastException: org.apache.hadoop.io.se
com.jme3.network.serializing.serializers.ZIPSerializer类的使用及代码示例
本文整理了Java中com.jme3.network.serializing.serializers.ZIPSerializer类的一些代码示例，展示了ZIPSerializer类的具体用法。这些代码
serial-port - 为什么 serial.available 在此代码段中不起作用？
我有一个处理草图，需要与 USB 设备建立 2 个连接。我无法提前判断哪个设备是 USB0 哪个是 USB1。 (不是我至少知道) 其中一台设备发出问候语，另一台设备根本不回答。因此，我编写了带有简单
serial-port - 如何比较 Serial.read() 中的字符串？
我在下面有这个代码，我来自 this forum我遵循了。它对我不起作用，但他们声称代码很好。我已经尝试了几种字符串比较方法，例如 string.equals(string)和标准==运营商，仍然没有
xml-serialization - XML 序列化 : object not serialized
当我尝试调用特定的 Web 服务方法时，我收到“Unspecified error”。使用 XMLSpy 我发现参数对象还没有被序列化。在生成的序列化程序源中，我注意到以下几行: if (!need
serialization - NEAR 是否需要 Serialize 和 BorshSerialize？
在 Rust 中编写 NEAR 智能合约，我的编译器似乎要求通过 API 发送的对象具有 Serialize trait，以及存储在区块链中的对象 BorshSerialize和 BorshDeser
serialization - Kotlin 序列化 : "Unresolved reference: serializer"
我正在尝试 Kotlin 序列化。按照说明进行设置后，我得到了 Unresolved reference: serializer使用此代码构建错误: val serializer : KSeriali

首页

博学

6Ren·AI

商城

hadoop - 使用 Flume Serializer 生成复合 hbase rowkey