gpt4 book ai didi

hadoop - 我们能否使用Sqoop2导入仅创建文件而不将其创建到HIVE表等

转载 作者:行者123 更新时间:2023-12-02 20:22:22 25 4
gpt4 key购买 nike

我试过在Sqoop2中的命令下面运行:

这个作品创建了TAB分离的零件文件(part-m-00000,part-m-00001等):

sqoop import --connect jdbc:oracle:thin:@999.999.999.999:1521/SIDNAME --username god --table TABLENAME --fields-terminated-by '\t' --lines-terminated-by '\n' -P

此失败:
sqoop import -Dmapreduce.job.user.classpath.first=true \
-Dmapreduce.output.basename=`date +%Y-%m-%d` \
--connect jdbc:oracle:thin:@999.999.999.999:1521/SIDNAME \
--username nbkeplo \
--P \
--table TABLENAME \
--columns "COL1, COL2, COL3" \
--target-dir /usr/data/sqoop \
-–as-parquetfile \
-m 10

错误:
20/01/08 09:21:23 ERROR tool.BaseSqoopTool: Error parsing arguments for import:
20/01/08 09:21:23 ERROR tool.BaseSqoopTool: Unrecognized argument: -–as-parquetfile
20/01/08 09:21:23 ERROR tool.BaseSqoopTool: Unrecognized argument: -m
20/01/08 09:21:23 ERROR tool.BaseSqoopTool: Unrecognized argument: 10

Try --help for usage instructions.

我希望输出是一个<.parquet>文件,而不是一个HIVE表(想直接与Apache Spark一起使用而不使用HIVE)。使用Sqoop导入可以创建<.parquet>文件吗?

最佳答案

使用Sqoop可以直接导入HDFS(如AVRO,SequenceFile或)。当您输出到Hive时,它仍被写入HDFS,就在Hive仓库中用于托管表。另外,Spark可以从其有权访问的任何HDFS位置读取。

您的代码段不一样,您也没有提到您尝试过的故障排除步骤。

我将--split-by--fields-terminated-by--lines-terminated-by参数添加到您的命令中。

关于hadoop - 我们能否使用Sqoop2导入仅创建文件而不将其创建到HIVE表等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59648049/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com