gpt4 book ai didi

hadoop - 使用什么从 Spark 的 dynamodb 读取/写入?

转载 作者:可可西里 更新时间:2023-11-01 15:51:51 25 4
gpt4 key购买 nike

我想知道从 Spark 的 dynamodb 读/写什么是最好的。

我尝试过使用 dynamodb 的官方 API,也尝试过使用 emr 连接器(hadoop 和 hive)和其他连接器。

但我发现(除其他问题外)执行查询需要进行全面扫描,而这对于大表来说是无效的。

有什么建议吗?

最佳答案

您尝试使用 emr-dynamodb-connector 的过程通常是大多数人使用它的方式。

但是有一个library您可以使用它来连接到 DynamoDb。

通常从 spark 访问 DynamoDb 很困难,因为现在您已将 spark 执行程序与 DynamoDb throttle 联系在一起。您可以尝试的一种替代方法是使用 Hbasecassandra,我发现它更好地支持 spark 使用,提供谓词下推等。

通常,我使用 spark 在集群上使用 DynamoDB 数据的方式是利用 DynamoDb 流。在 S3 中收集流数据并对该数据应用批处理。

关于hadoop - 使用什么从 Spark 的 dynamodb 读取/写入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48425922/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com