- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何将 PySpark 数据帧写入 DynamoDB 表?没有找到太多关于此的信息。根据我的要求,我必须将 PySpark 数据框写入 Dynamo 数据库表。总的来说,我需要从我的 PySpark 代码读取/写入 dynamo。
提前致谢。
最佳答案
Ram,无法直接从 pyspark 执行此操作。如果您有运行的管道软件,则可以通过一系列步骤完成。这是如何完成的:
像这样创建一个临时的 hive 表
创建表模板(
column1类型,
column2 类型...)
存储为 ORC;
运行您的 pySpark 作业并将数据写入其中
dataframe.createOrReplaceTempView("df")
spark.sql("INSERT OVERWRITE TABLE temp SELECT * FROM df")
创建发电机连接器表
创建表 TEMPTODYNAMO(
column1类型,
column2 类型...)
由 'org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler' 存储
TBLPROPERTIES ("dynamodb.table.name"= "temp-to-dynamo",
"dynamodb.column.mapping"= "column1:column1,column2:column2...";
用你的临时表覆盖那个表
INSERT OVERWRITE TABLE TEMPTODYNAMO SELECT * FROM TEMP;
更多信息在这里: https://docs.aws.amazon.com/emr/latest/ReleaseGuide/EMR_Hive_Commands.html
关于pyspark - 如何将 PySpark 数据框写入 DynamoDB 表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53044026/
我是一名优秀的程序员,十分优秀!