gpt4 book ai didi

hadoop - Hadoop Cassandra CqlInputFormat分页

转载 作者:行者123 更新时间:2023-12-02 21:40:21 29 4
gpt4 key购买 nike

我是Cassandra的新手,有以下问题:

我有一个7节点的Cassandra(v2.0.11)集群和一个具有10k行的表。
我运行了一个hadoop作业(数据节点当然位于cassandra节点上),该作业从该表中读取数据,并且看到映射阶段只读取了7k行。

我检查了CqlInputFormat源代码,并注意到构建了一个CQL查询以选择本地节点日期,并且还添加了LIMIT子句(默认为1k)。这样就可以解释7k个读取行:7 nodes * 1k limit = 7k rows read total
可以使用CqlConfigHelper更改限制:

CqlConfigHelper.setInputCQLPageRowSize(job.getConfiguration(), "1000");

,请帮我解决以下问题:
这是期望的行为吗?
为什么 CqlInputFormat不能分页其余行?
是一个错误还是我应该增加 InputCQLPageRowSize的值?
如果我想读取表中的所有数据并且不知道行数怎么办?

最佳答案

我的问题与cassandra 2.0.11中的错误有关,该错误在基础CQL查询运行中添加了一个奇怪的LIMIT子句以读取数据到map任务:

我把那个问题发给了 Cassandra ·吉拉:https://issues.apache.org/jira/browse/CASSANDRA-9074

原来,该问题与cassandra 2.0.12中修复的以下错误严格相关:https://issues.apache.org/jira/browse/CASSANDRA-8166

关于hadoop - Hadoop Cassandra CqlInputFormat分页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29201547/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com