gpt4 book ai didi

apache-spark - 运行 Apache Hudi deltastreamer 时出错

转载 作者:行者123 更新时间:2023-12-04 10:39:24 25 4
gpt4 key购买 nike

我试图在 AWS EMR 上运行 Hudi deltastreamer。按照此博客中的步骤操作。 https://cwiki.apache.org/confluence/pages/viewrecentblogposts.action?key=HUDI

但是当我运行下面的 spark submit 时,错误来了:

 Exception in thread "main" org.apache.hudi.com.beust.jcommander.ParameterException: Was passed main parameter '--table-type' but no main parameter was defined in your arg class
at org.apache.hudi.com.beust.jcommander.JCommander.initMainParameterValue(JCommander.java:936)
at org.apache.hudi.com.beust.jcommander.JCommander.parseValues(JCommander.java:752)
at org.apache.hudi.com.beust.jcommander.JCommander.parse(JCommander.java:340)
at org.apache.hudi.com.beust.jcommander.JCommander.parse(JCommander.java:319)

我运行的命令如下:
spark-submit --class org.apache.hudi.utilities.deltastreamer.HoodieDeltaStreamer \
--packages org.apache.spark:spark-avro_2.11:2.4.4 \
--master yarn --deploy-mode client /usr/lib/hudi/hudi-utilities-bundle.jar \
--table-type COPY_ON_WRITE --source-ordering-field payment_date --source-class org.apache.hudi.utilities.sources.ParquetDFSSource \
--target-base-path s3://sakila-db/hudi-payment \
--target-table hudi-payment \
--transformer-class org.apache.hudi.utilities.transform.AWSDmsTransformer \
--payload-class org.apache.hudi.payload.AWSDmsAvroPayload \
--hoodie-conf hoodie.datasource.write.recordkey.field=order_id,hoodie.datasource.write.partitionpath.field=staff_id,hoodie.deltastreamer.source.dfs.root=s3://sakila-db/sakila/payment

请帮忙。

最佳答案

基于 EMR releases当前支持的 hudi 版本是 0.5.0-incubating。您所遵循的步骤适用于 0.5.1,其中 --table-type参数是旧 --storage-type 的新名称在 0.5.0.

尝试使用 --storage-type 重新运行而不是 --table-type如果您使用的是 0.5.0

关于apache-spark - 运行 Apache Hudi deltastreamer 时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60006371/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com