gpt4 book ai didi

hadoop - 向 Greenplum 物理表中插入数据

转载 作者:可可西里 更新时间:2023-11-01 14:52:29 25 4
gpt4 key购买 nike

我正在尝试将数据从 Greenplum 外部表插入到物理(或普通表)表中。外部表指向一个包含大约 1.32 亿数据的配置单元文件。但是,当我的外部表显示只有 6600 万的计数时。结果,当插入物理表时,我只插入了 6600 万条记录。为什么会这样?与我的外部表的表属性有什么关系吗?如果是怎么办?

最佳答案

当通过 hive 统计时,您会看到 6600 万条记录。假设您刚刚执行了一个 count(*) 应该足够直接了。

现在你对此并不满意,因为你有 1.32 亿个“数据”,恰好是原来的两倍。

我不会担心任何只允许您加载前 6600 万条记录的设置,所以让我们看看可能的嫌疑人。

  1. 两条“数据”(行?)对应一条记录。
  2. 数据中有一些奇怪的东西,当您将它作为一个表来评估时,这使得您错过了一半的记录。 (也许是在 6600 万行之后中断,也许是奇怪的行尾)
  3. 您实际上并没有加载所有输入文件

仔细检查应该会指出真正的罪魁祸首。如果您不知道从哪里开始:

  1. 查看文件中的第一行和最后几行,并将它们的全部内容与表中的第一行和最后几行进行比较
  2. 检查每个输入文件中的行是否在输出中表示
  3. 如果您确定缺少某些数据,请尝试从输入文件中推断出应该缺少哪一行,并查看是否可以在表中找到它。

关于hadoop - 向 Greenplum 物理表中插入数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38865475/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com