- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我还没弄清楚,但我正在尝试将直接输出提交器与 AWS Glue 结合使用:
spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
是否可以将此配置与 AWS Glue 一起使用?
最佳答案
选项 1:
Glue 使用 spark 上下文,您也可以将 hadoop 配置设置为 aws glue。因为内部动态框架是一种数据框架。
sc._jsc.hadoopConfiguration().set("mykey","myvalue")
我想你也需要像这样添加相应的类
sc._jsc.hadoopConfiguration().set("mapred.output.committer.class", "org.apache.hadoop.mapred.FileOutputCommitter")
示例片段:
sc = SparkContext()
sc._jsc.hadoopConfiguration().set("mapreduce.fileoutputcommitter.algorithm.version","2")
glueContext = GlueContext(sc)
spark = glueContext.spark_session
证明配置存在....
在 python 中调试:
sc._conf.getAll() // print this
在 scala 中调试:
sc.getConf.getAll.foreach(println)
选项 2:
你尝试使用胶水的作业参数的另一面:
https://docs.aws.amazon.com/glue/latest/dg/add-job.html它具有文档中提到的键值属性
'--myKey' : 'value-for-myKey'
您可以按照下面的屏幕截图来编辑作业并使用 --conf
指定参数
选项 3:
如果您使用的是 aws cli,您可以在下面尝试... https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-glue-arguments.html
有趣的是,它们在文档dont set 消息中提到,如下所示。但不知道为什么会暴露。
To sum up : I personally prefer option1 since you have programmatic control.
关于scala - 将 Spark fileoutputcommitter.algorithm.version=2 与 AWS Glue 结合使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56432696/
mapreduce.fileoutputcommitter.marksuccessfuljobs false 我想将上述属性重写为 true。对于集群上的其余作业,该属性需要为 false,但在我
DirectFileOutputCommitter 在 Spark 2.2.0 中不再可用。这意味着写入 S3 需要非常长的时间(3 小时对 2 分钟)。我可以通过在 spark-shell 中将 F
我正在尝试按照 Nutch tutorial 上的简单步骤进行操作.这是我第一次使用 Nutch。 一切顺利,直到我执行以下命令: bin/nutch crawl bin/urls -dir craw
我还没弄清楚,但我正在尝试将直接输出提交器与 AWS Glue 结合使用: spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2
我是一名优秀的程序员,十分优秀!