gpt4 book ai didi

amazon-dynamodb - 通过 EMR 上运行的 PySpark 中的 Glue 数据目录访问 DynamoDB 时绝对 URI 中的相对路径异常

转载 作者:行者123 更新时间:2023-12-04 15:45:47 27 4
gpt4 key购买 nike

我正在 AWS EMR 上执行一个 pyspark 应用程序,该应用程序配置为使用 AWS Glue 数据目录作为元存储。我在 AWS Glue 中设置了一个指向 DynamoDB 表的表。现在在我的 pyspark 脚本中,我试图访问 Glue 表。我可以做 show tables并且能够看到胶水表。但是当我尝试查询表时,我遇到了异常,
pyspark.sql.utils.AnalysisException: u'java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: arn:aws:dynamodb:<region>:<acct_id>:table/DDBTABLE;'
我在 pyspark 脚本中的查询:
spark.sql("select * from ddbtable").show()
在这方面找不到任何好的引用。我看到有人在讨论问题 spark.sql.warehouse.dir .但不确定它与胶水数据目录有什么关系。任何输入?

最佳答案

联系 AWS Tech,显然这是 EMR 的问题(截至 5.23.0),同时使用 Glue 数据目录并访问连接到 DynamoDB 的 Glue 表。他们仍在为此努力,同时提供了以下解决方法。

编辑 Glue 表的属性文件以包含以下内容,

更新:将位置属性设置为某个虚拟 S3 位置,使其具有以下形式 - s3://dummy-path

添加:在参数下添加以下DynamoDB特定信息,

"dynamodb.table.name": "ddb-table",
"dynamodb.column.mapping": "col:col",
"storage_handler": "org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler"

更新胶水表引用 here

关于amazon-dynamodb - 通过 EMR 上运行的 PySpark 中的 Glue 数据目录访问 DynamoDB 时绝对 URI 中的相对路径异常,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55853903/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com