gpt4 book ai didi

hadoop - Sqoop增量加载到分区配置单元表中

转载 作者:行者123 更新时间:2023-12-02 21:09:39 26 4
gpt4 key购买 nike

如何将增量数据加载到分区的配置单元表中

我有带有以下列的“用户”表,我已基于created_on字段创建了配置单元分区

id bigint,
name string,
created_on string(yyyy-MM-dd),
updated_on string

我创建了一个sqoop作业,以根据上次修改日期增量导入
sqoop job --create users -- import --connect jdbc:mysql://<ip>/product  --driver com.mysql.jdbc.Driver --username <> -P --table users --incremental lastmodified --check-column updated_on --last-value "2016-11-15"--hive-table users --hive-import --hive-partition-key created_on --hive-partition-value "2016-11-15" --m 1

如果您观察上述工作,它将基于上次修改的值进行提取并将其插入错误的分区中

有没有解决这个问题的方法

最佳答案

您在1列上加载分区,并希望基于其他列进行写入吗?那简直就是“不匹配”。

解决的办法似乎是使负载和分区对齐。

因此,如果您要写入所有created_on等于2016-11-15的记录,那么还要确保完全加载这些记录。 (我想在这种情况下您不应该使用标准的增量功能)。

关于hadoop - Sqoop增量加载到分区配置单元表中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40677619/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com