gpt4 book ai didi

scala - 依靠 RDD 给出不同的结果

转载 作者:行者123 更新时间:2023-12-02 01:34:20 26 4
gpt4 key购买 nike

我有一个超过 7500 万行的 RDD,当我对其调用 count 函数时,我每次都会得到不同的数字。我的理解是 count 应该给出确切的数字。

编辑

只是为了给出数据的概念,结构是这样的

Userid: 1  
Date: 8/15/2015
Location: Building 1
...
Date 8/1/2015
Location: Building 5
...

Userid: 2
Date: 7/30/2015
Location: Building 10
...
Date: 6/1/2015
Location: Building 3
...

分区键:Userid
聚类键:Date ORDER BY DESC

星火版本:1.2.2
数据来自Cassandra
使用的API是Scala
Spark Cassandra 连接器版本 1.2.2
我刚刚从 Cassandra 读取数据并使用 map 获取了 UseridLocation

最佳答案

我使用读取一致性级别 Local_One 并使用 Quorum 一致性解决了这个问题。根本问题是我们的一个节点的突变丢弃计数很高。

关于scala - 依靠 RDD 给出不同的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32081882/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com