gpt4 book ai didi

pyspark - 如何将 PySpark 数据框写入 DynamoDB 表?

转载 作者:行者123 更新时间:2023-12-05 01:41:53 27 4
gpt4 key购买 nike

如何将 PySpark 数据帧写入 DynamoDB 表?没有找到太多关于此的信息。根据我的要求,我必须将 PySpark 数据框写入 Dynamo 数据库表。总的来说,我需要从我的 PySpark 代码读取/写入 dynamo。

提前致谢。

最佳答案

Ram,无法直接从 pyspark 执行此操作。如果您有运行的管道软件,则可以通过一系列步骤完成。这是如何完成的:

  1. 像这样创建一个临时的 hive 表

    创建表模板(
    column1类型,
    column2 类型...)
    存储为 ORC;

  2. 运行您的 pySpark 作业并将数据写入其中

    dataframe.createOrReplaceTempView("df")
    spark.sql("INSERT OVERWRITE TABLE temp SELECT * FROM df")

  3. 创建发电机连接器表

    创建表 TEMPTODYNAMO(
    column1类型,
    column2 类型...)
    由 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' 存储
    TBLPROPERTIES ("dynamodb.table.name"= "temp-to-dynamo",
    "dynamodb.column.mapping"= "column1:column1,column2:column2...";

  4. 用你的临时表覆盖那个表

    INSERT OVERWRITE TABLE TEMPTODYNAMO SELECT * FROM TEMP;

更多信息在这里: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/EMR_Hive_Commands.html

关于pyspark - 如何将 PySpark 数据框写入 DynamoDB 表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53044026/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com