gpt4 book ai didi

python - Cassandra Spark 写入速度慢

转载 作者:行者123 更新时间:2023-11-28 19:08:48 29 4
gpt4 key购买 nike

我正在使用 Python 中的 Spark Cassandra 连接器和数据帧制作一个小型 Spark 应用程序,但我的写入速度极低。当我查看应用程序日志时,它说:

17/03/28 20:04:05 INFO TableWriter: Wrote 315514 rows to movies.moviescores in 662.134 s.    

这大约是每秒 474 行。

我正在从 Cassandra 中读取一些数据到一个表中,然后对它们进行一些操作(这也会使数据集更大)。然后我将结果写回 cassandra(大约 5000 万行):

result.write.format("org.apache.spark.sql.cassandra").mode('append').options(table="moviescores", keyspace="movies").save()

其中结果是数据框。

如果重要的话,这是我的键空间的创建:

CREATE KEYSPACE IF NOT EXISTS movies WITH REPLICATION = { \'class\' : \'NetworkTopologyStrategy\', \'datacenter1\' : 3 };

我正在写入的表:

CREATE TABLE IF NOT EXISTS movieScores(movieId1 int, movieId2 int, score int, PRIMARY KEY((movieId1, movieId2)));

我的设置如下:我有 5 个 Spark worker 在 Docker 容器中运行,每个容器都在不同的节点上运行 CoreOS,2 GB RAM 和 2 个内核在 Digitalocean 上运行。3 个 Cassandra 节点在 Docker 容器中运行,每个节点都在运行 CoreOS 的不同节点上,2 GB 内存和 2 个内核在 Digitalocean 上运行。

运行 Spark 的节点有 2 GB 的 RAM,但它们最多只能使用 1 GB,因为这是独立模式下 Sparks 的默认设置:

(default: your machine's total RAM minus 1 GB)

不确定提出这个问题是否明智。

现在我读到我应该在我的 Digital Ocean 集群中的每个节点上运行一个 Spark Worker 和一个 Cassandra 节点。但是我不确定在只有 2 个内核的 2GB 机器上运行一个带有 Spark 的 Docker 容器和另一个带有 Cassandra 节点的容器是否是个好主意。

为什么写这么慢?是否有我应该更改/设置的参数/设置以提高写入速度?也许我的设置都错了?我对 Spark 和 Cassandra 很陌生。

更新:我刚刚在没有 Spark 的情况下在同一张 table 上进行了测试,仅使用适用于 Python 的 Cassandra 连接器和笔记本电脑上的一个小 Python 程序。我使用批量插入 1000 行,我可以在 35 秒内插入 100 万行,这几乎是每秒 30000 行,速度更快。所以也许 Spark 才是问题所在,而不是 Cassandra。也许将我的其余代码放在这里是有意义的?还是我的设置有问题?

最佳答案

我最近在将超过 8000 万条记录保存到 Cassandra 时遇到了类似的问题。在我的例子中,我使用了 Spark Java API。帮助解决我的问题的是我在通过 spark-cassandra-connector 将数据集保存到 Cassandra 之前在数据集上应用了 orderBy()。尝试先订购您的数据集,然后将 save() 保存到 Cassandra。

关于python - Cassandra Spark 写入速度慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43079884/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com