gpt4 book ai didi

google-cloud-platform - 如何使用Google Spanner进行多个并行读取器的数据导出?

转载 作者:行者123 更新时间:2023-12-03 04:28:05 24 4
gpt4 key购买 nike

External Backups/Snapshots for Google Cloud Spanner建议使用带有时间戳边界的查询来创建用于导出的快照。在时间戳边界文档的底部,它指出:

Cloud Spanner continuously garbage collects deleted and overwritten data in the background to reclaim storage space. This process is known as version GC. By default, version GC reclaims versions after they are one hour old. Because of this, Cloud Spanner cannot perform reads at a read timestamp more than one hour in the past.

因此任何导出都需要在一小时内完成。单个读取器(即 select * from table; 使用时间戳 X)将无法在一小时内导出整个表。

如何在spanner中实现多个并行读取器?

<小时/>

注意:其中一条评论提到对 Apache Beam 的支持即将到来,但看起来只使用单个读取器:

/** A simplest read function implementation. Parallelism support is coming. */

https://github.com/apache/beam/blob/master/sdks/java/io/google-cloud-platform/src/main/java/org/apache/beam/sdk/io/gcp/spanner/NaiveSpannerReadFn.java#L26

有没有办法使用现有的 API 来实现 Beam 目前所需的并行读取器?或者 Beam 是否需要使用 google spanner 上尚未发布的东西?

最佳答案

可以使用 BatchClient 类从 Cloud Spanner 并行读取数据。关注 read_data_in_parallel了解更多信息。

如果您希望从 Cloud Spanner 导出数据,我建议您使用 Cloud Dataflow(请参阅集成详细信息 here ),因为它提供更高级别的抽象并负责数据处理细节,例如扩展和故障处理。

关于google-cloud-platform - 如何使用Google Spanner进行多个并行读取器的数据导出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44851612/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com