gpt4 book ai didi

mysql - C* 端的过滤器 - 将过滤器/范围查询从 Spark 下推到 C*

转载 作者:可可西里 更新时间:2023-11-01 07:39:08 25 4
gpt4 key购买 nike

我使用 datastax/spark-cassandra-connector 和填充了 1B+ 行的 C* 表 (datastax-enterprise dse 4.7.0) 开发 spark 1.2.1。我需要对时间戳参数执行范围过滤器/where 查询。

在不加载整个 1B+ 行表以激发内存(可能需要数小时才能完成)并且实际上将查询推回 C* 的情况下,最好的方法是什么?

将 rdd 与 JoinWithCassandraTable 结合使用,还是将数据框与下推结合使用?还有别的吗?

最佳答案

JoinWithCassandraTable 成为我的最佳解决方案。我从这篇文章中学到了很多东西:http://www.datastax.com/dev/blog/zen-art-spark-maintenance并发布链接问题的答案:Spark JoinWithCassandraTable on TimeStamp partition key STUCK

这一切都是为了以正确的方式构建您的 C* 表(选择好的分区键尤为重要)以供您将来查询。

关于mysql - C* 端的过滤器 - 将过滤器/范围查询从 Spark 下推到 C*,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33348633/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com