gpt4 book ai didi

oracle - 鱿鱼进口 Parquet 尺寸

转载 作者:行者123 更新时间:2023-12-02 21:05:42 28 4
gpt4 key购买 nike

我的问题是,我有一个包含50万行的Oracle表。我设置了sqoop以将其作为 Parquet 文件导入到HDFS。我将--num-partition参数设置为32,得到了32个 Parquet 文件,但是其中一个文件大小为28 MB,其他文件大小为2-3 KB。

这是我的sqoop命令:

bin/sqoop import --connect <JDBC> --username <USER> --password <PASSWD> --table <TABLE> --target-dir <TARGET_DIR> -m32 --as-parquetfile --delete-target-dir --outdir <DIR>

我的问题是,此文件大小可能是什么原因?

最佳答案

这意味着您的数据不是均匀分布的。

我在命令中没有看到任何--split-by列。因此,假设拆分是在主键上完成的。拆分基本上是通过同时运行范围查询来完成的。范围查询之一是获取最大数据,因此大小为28 MB。

关于oracle - 鱿鱼进口 Parquet 尺寸,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42031085/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com