gpt4 book ai didi

mysql - 如何使用 Sqoop 从 MySQL 增量导入到 Hive?

转载 作者:可可西里 更新时间:2023-11-01 14:59:30 26 4
gpt4 key购买 nike

我可以使用 Sqoop 成功地从 MySQL 增量导入到 HDFS

sqoop job -create JOBNAME ... --incremental append --check-column id --last-value LAST
sqoop job -exec JOBNAME

以日志消息结束

INFO tool.ImportTool: Saving incremental import state to the metastore
INFO tool.ImportTool: Updated data for job: JOBNAME

检查作业表明 incremental.last.value 已正确更新。

如果我尝试相同的过程,但将“--hive-import”添加到我的作业定义中,它将成功执行,但不会更新 incremental.last.value。

这是一个错误吗?预期行为?有没有人有从 MySQL 增量导入数据并通过 Hive 提供数据的过程?

我基本上希望我的 Hadoop 集群成为我的 MySQL 数据库的读取从属,以便进行快速分析。如果除了 Hive(Pig 会很好)还有其他解决方案,我也很想听听。

最佳答案

选项 --hive import 用于使用 mapreduce 作业在 HDFS 上创建表的定义结构。此外,正在读取到 Hive 的数据是 Read Schema!!! 。这意味着除非执行查询,否则数据实际上并没有导入到它。所以每次运行文件时,都会在 Hive 中的表上新(新鲜)地执行查询。所以它不存储最后的增量值。

Hive 架构上的每个查询都被视为独立的,因为它在执行时运行并且不存储旧结果。

关于mysql - 如何使用 Sqoop 从 MySQL 增量导入到 Hive?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14060923/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com