gpt4 book ai didi

hadoop - 存储中间结果

转载 作者:可可西里 更新时间:2023-11-01 16:14:55 25 4
gpt4 key购买 nike

假设我有一个带有复合键的 hbase 表 - Key1,Key2,Key3,Time

我想使用 spark 来做这样的事情:

Aggregate at -> Key1,Key2,Key3,DatePart(Time),Hour(Time) --->Save result in Another table (Step1Table)

使用上面的rdd来

Aggregate at -> Key1,Key2,DatePart(Time),Hour(Time) --->Save result in Another table (Step2Table)

使用上面的rdd来

Aggregate at -> Key1,DatePart(Time),Hour(Time) --->Save result in Another table (Step3Table)

问题是当我想将结果保存到表中时,我不想做简单的插入,我想做某种合并(如果键的记录存在),有人可以指导我吗

我想我需要创建一个重载的 TableOutputFormat,有人可以告诉我如何处理它吗?

最佳答案

HBase 是一种读/写媒体。您可以为同一个行键创建新条目:它们将具有更新的时间戳,因此它们“有效地”替换了旧的。

因此您的 Step1Table、Step2Table 和 Step3Table 可以由以下人员管理:

  • 从 hbase 中读取给定键的聚合。
  • 将新值添加到每个聚合:重新计算值
  • 将新值存储回同一个键。

本质上,工作不在特殊的输入/输出格式中(除了使用 HBase 的 TableInput/OutputFormat 之外),而是在您的聚合计算中。

关于hadoop - 存储中间结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23523979/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com