gpt4 book ai didi

scala - 使用 Scalding 的 HBase 到 Hive 示例

转载 作者:可可西里 更新时间:2023-11-01 15:33:49 27 4
gpt4 key购买 nike

我正在尝试从 HBase 读取数据,对其进行处理,然后写入 Hive。我是 Scalding 和 Scala 的新手。

我查看了 SpyGlass用于从 HBase 读取。它运行良好,我可以读取数据,然后将其写入文件。

val data = new HBaseSource(
tableName,
hbaseHost,
SCHEMA.head,
SCHEMA.tail.map((x: Symbol) => "data"),
SCHEMA.tail.map((x: Symbol) => new Fields(x.name)),
sourceMode = SourceMode.SCAN_ALL)
.read
.fromBytesWritable(SCHEMA)
.debug
.write(Tsv(output.format("get_list")))

所以现在的问题是如何将它写入 Hive。如果有人设法做到这一点,我将不胜感激,如果能提供一个简单的示例或一些帮助来完成此任务。

最佳答案

您实际上不需要做任何特别的事情来写入 Hive - 您当前的代码绝对没问题。 Hive 只是将元数据应用到存储在 HDFS 中的数据之上。您需要做的就是在您正在写入的数据之上创建一个 Hive 表。您有两个主要选择。如果您想将数据移动到 Hive 仓库,则需要使用如下命令将其加载:

load data inpath '/your/file/or/folder/on/the/hdfs' into table your_table;

如果你不想移动数据,你可以创建一个external不移动数据的 Hive 表。外部表的优点是

  • 您不必向其中加载数据,
  • 删除表不会删除数据。

关于scala - 使用 Scalding 的 HBase 到 Hive 示例,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28632251/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com