gpt4 book ai didi

hadoop - 使用Shark查询Cassandra需要太多时间

转载 作者:行者123 更新时间:2023-12-02 21:46:52 25 4
gpt4 key购买 nike

我已经建立了一个两(2)节点的Cassandra集群,并尝试使用shark执行查询。但是查询大约需要10分钟。但是查询工作正常。 (我使用Cloudera为我安装软件)

Time taken: 421.189 seconds
shark>

我试图通过更改/opt/shark/shark/conf/shark-env.sh中的一些参数(增加:SPARK_MEM和SHARK_MASTER_MEM)来调整鲨鱼。但是那不是运气。
如果有人可以给我 这个缓慢的线索,不胜感激?
这是我为涉及的各种软件安装的版本列表:

Cassandra :2.0.8
鲨鱼:shark-0.9.1-bin-cdh4.6.0-fe75a886
Spark :SPARK-0.9.0-1.cdh4.6.0.p0.98
Hadoop :2.0.0-cdh4.7.0

硬件规格:
RAM :256GB
CPU :2x Intel(R) Xeon(R) CPU E5-2680 v2 @ 2.80GHz(带有 HT的总共20个内核)

最佳答案

抱歉,不能发表评论。这不是答案,而是有关此问题的一些想法。我也遇到过类似的问题,但是在使用一个cassandra节点测试本地设置时。对10行表的最简单请求

cqlsh:db> SELECT * FROM table;

在CQL shell中花费不到一秒钟。

但是在鲨鱼中大约需要10秒钟。
shark> USE db; SELECT * FROM table;
...
Time taken: 11.274 seconds

鲨鱼目录中有 bin/shark-withinfo可执行文件,它为请求提供了一些信息。也许它将为您的案例提供一些启示。就我而言,它表示要处理大量请求来处理我的请求。因此,我猜施莱杜尔(Schleduer)大部分时间都在吃东西,但我不太确定
...
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Starting task 0.0:255 as TID 255 on executor localhost: localhost (PROCESS_LOCAL)
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Serialized task 0.0:255 as 5456 bytes in 0 ms
14/07/09 17:35:19 INFO executor.Executor: Running task ID 255
14/07/09 17:35:19 INFO scheduler.TaskSetManager: Finished TID 254 in 30 ms on localhost (progress: 255/257)
14/07/09 17:35:19 INFO scheduler.DAGScheduler: Completed ResultTask(0, 254)
14/07/09 17:35:19 INFO storage.BlockManager: Found block broadcast_0 locally
14/07/09 17:35:19 INFO rdd.HadoopRDD: Input split: localhost 9160 org.apache.cassandra.dht.Murmur3Partitioner
14/07/09 17:35:19 INFO cql.HiveCqlInputFormat: Validators : null
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initializing Self 260 FS
14/07/09 17:35:19 INFO exec.FileSinkOperator: Operator 260 FS initialized
14/07/09 17:35:19 INFO exec.FileSinkOperator: Initialization Done 260 FS
14/07/09 17:35:19 INFO exec.FileSinkOperator: Final Path: FS file:...
14/07/09 17:35:19 INFO exec.FileSinkOperator: Writing to temp file: ...
14/07/09 17:35:19 INFO exec.FileSinkOperator: New Final Path: ...
14/07/09 17:35:19 INFO executor.Executor: Serialized size of result for 255 is 563
14/07/09 17:35:19 INFO executor.Executor: Sending result for 255 directly to driver
14/07/09 17:35:19 INFO executor.Executor: Finished task ID 255
...

关于hadoop - 使用Shark查询Cassandra需要太多时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24404805/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com