gpt4 book ai didi

sqoop - sqoop 导入时的部分和重复记录

转载 作者:行者123 更新时间:2023-12-01 09:04:31 25 4
gpt4 key购买 nike

当我们使用以下设置时,Sqoop 导入会导致重复/部分记录

  • --query - 自定义查询
  • --split-by - 非整数列(字符)
  • --num-mappers - 超过 2

Verified the source data count say 1000 records

Verified the import data count say 1923 records

最佳答案

当使用 split-by 且字段为非整数时。

Sqoop 使用 TextSplitter 提供如下警告:

WARN db.TextSplitter: If your database sorts in a case-insensitive order, this may result in a partial import or duplicate records

WARN db.TextSplitter: You are strongly encouraged to choose an integral split column.
  • 解决方案 1:使用单个映射器或 2
  • 解决方案2:在查询中使用rank函数并在rank字段上使用--split-by
  • 方案三:查询中--split-by字段按升序排序

关于sqoop - sqoop 导入时的部分和重复记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32197895/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com