How would one limit how many threads are used or created by Spark? (Databricks)(如何限制Spark使用或创建的线程数量？(数据库))-6ren

How would one limit how many threads are used or created by Spark? (Databricks)(如何限制Spark使用或创建的线程数量？(数据库))

转载作者：bug小助手更新时间：2023-10-24 23:45:34

26

4

Currently I'm using spark to write data into neo4j which when starting a write creates 200 threads writing into neo4j simultaneously. Is there a way to limit how many threads are created and used simultaneously or is the only way to decrease the cluster and instance size?
I know this kind of goes against what Spark is meant to do but would love to get any feedback.

目前，我正在使用Spark向ne4j写入数据，当开始写入时，它会创建200个线程同时写入到ne4j。有没有办法限制同时创建和使用的线程数量，或者这是减少集群和实例大小的唯一方法？我知道这与Spark的意图背道而驰，但我希望得到任何反馈。

I have tried
spark.conf.set("spark.executor.cores", 4)

我已经尝试了spak.conf.set(“spak.ecutor.cores”，4)

with no Luck.

没有运气。

edges.write.format("org.neo4j.spark.DataSource")\
.option("url", "neo4j://url:7687") \
.mode("overwrite")\
.option("relationship", "connected")\
.option("batch.size",1000)\
.option("relationship.save.strategy", "keys")\
.option("relationship.source.node.keys", "id:id")\
.option("relationship.target.node.keys", "id:id")\
.option("relationship.source.labels", "node")\
.option("relationship.target.labels", "node")\
.save()

更多回答

spark.executor.cores defines the number of threads per executor. So, if you set it to "1", you will reduce the number of writers to 1 per executor. This change is equivalent to reducing the cluster size, though, so it doesn't make much sense in this scenario.

Cores定义每个执行器的线程数。因此，如果将其设置为“1”，则每个执行器的写入器数量将减少到1个。不过，此更改等同于减少集群大小，因此在此场景中没有多大意义。

优秀答案推荐

Try to repartition your dataframe before the write:

尝试在写入之前对数据帧进行重新分区：

edges.repartition(parallelism)
...
.option("url", "neo4j://url:7687") \
.mode("overwrite")\
...

Where parallelism is the number of tasks that will be writing concurrently.

其中，并行度是将并发写入的任务数。

The common solution is to coalesce (which is similar to repartition but much more efficient as it does not require a shuffle). Something like:

常见的解决方案是合并(这类似于重新分区，但效率更高，因为它不需要洗牌)。类似于：

edges.coalesce(4).write...

One problem with this solution is that it assumes that edges/4 fits in the memory of the executor. If it does, that works great; if not, I don't think there is a way to limit the number of writers except by reducing the cluster.

这种解决方案的一个问题是，它假设边/4适合执行器的内存。如果是这样的话，效果很好；如果不是这样，我认为除了减少集群之外，没有其他方法来限制编写器的数量。

更多回答

Repartition has worked for me I now only see the specified amount of connections created to neo4j. Thank you.

重新分区对我起作用了，我现在只看到指定数量的连接创建到了ne4j。谢谢。

26

4

0

文章推荐： Decode JSON using Dart Isolates(使用DART分离物解码JSON)

css - 如何在CSS中用一种颜色绘制一半对 Angular 线，用另一种颜色绘制另一半对 Angular 线
我将 Bootstrap 与 css 和 java 脚本结合使用。在不影响前端代码的情况下，我真的很难在css中绘制这个背景。在许多问题中，人们将宽度和高度设置为 0%。但是由于我的导航栏，我不能使用
c - scanf ("%79[^\n]",line); 之间的区别vs scanf ("%79[^\n]\n"，线) vs scanf ("%79[^\n]s"，线)
我正在用 c 编写一个程序来读取文件的内容。代码如下: #include void main() { char line[90]; while(scanf("%79[^\
Javascript获取矩阵数组的对 Angular 线
我想使用 javascript 获取矩阵数组的所有对 Angular 线。假设输入输出如下: input = [ [1,2,3], [4,5,6], [7,8,9], ] output =
pdfmake - 线，圆和其他形状？
可以用pdfmake绘制lines，circles和other shapes吗？如果是，是否有documentation或样本？我想用jsPDF替换pdfmake。最佳答案是的，有可能。 pdfm
svg - 如何制作带有边框的SVG“线”？
我有一个小svg小部件，其目的是显示角度列表（参见图片）。现在，角度是线元素，仅具有笔触，没有填充。但是现在我想使用一种“内部填充”颜色和一种“笔触/边框”颜色。我猜想line元素不能解决这个问题，
java - 线-三角形交点检查返回错误的交点
我正在为带有三角对象的 3D 场景编写一个非常基本的光线转换器，一切都工作正常，直到我决定尝试从场景原点 (0/0/0) 以外的点转换光线。但是，当我将光线原点更改为 (0/1/0) 时，相交测试突
Python Shebang 线
这个问题已经有答案了: Why do people write "#!/usr/bin/env python" on the first line of a Python script? (22 个回
java - 如何在屏幕上绘制星号(*)线？
如何使用大约 50 个星号 * 并使用 for 循环绘制一条水平线？当我尝试这样做时，结果是垂直(而不是水平)列出 50 个星号。 public void drawAstline() { f
java - 球不动；线？
这是一个让球以对角线方式下降的 UI，但球保持静止；线程似乎无法正常工作。你能告诉我如何让球移动吗？请下载一个球并更改目录，以便程序可以找到您的球的分配位置。没有必要下载足球场，但如果您愿意，也可以
ant - Jmeter和Ant报90%线
我在我的一个项目中使用 Jmeter 和 Ant，当我们生成报告时，它会在报告中显示 URL、#Samples、失败、成功率、平均时间、最短时间、最长时间。我也想在报告中包含 90% 的时间线。现
Java Swing 线
我有一个不寻常的问题，希望有人能帮助我。我想用 Canvas (android) 画一条 Swing 或波浪线，但我不知道该怎么做。它将成为蝌蚪的尾部，所以理想情况下我希望它的形状更像三角形，一端更大
javafx粗笔画路径(线)与圆之间的碰撞问题
这个问题已经有答案了: Checking Collision of Shapes with JavaFX (1 个回答) 已关闭 8 年前。我正在使用 JavaFx 8 库。我的任务很简单:我想检
bash - 如何按编号的百分比拆分文件。线？
如何按编号的百分比拆分文件。行数？假设我想将我的文件分成 3 个部分(60%/20%/20% 部分)，我可以手动执行此操作，-_-: $ wc -l brown.txt 57339 brown.tx
圆圈之间的 HTML 线
我正在努力实现这样的目标: 但这就是我设法做到的。你能帮我实现预期的结果吗？更新: 如果我删除 bootstrap.css 依赖项，问题就会消失。我怎样才能让它与 Bootstrap 一起工作？
css - 转换比例导致间隙/线
我目前正在构建一个网站，但遇到了 transform: scale 的问题。我有一个按钮，当用户将鼠标悬停在它上面时，会发生两件事: 背景以对 Angular 线“扫过” 按钮标签颜色改变按钮稍微变
macos - 非常快速地绘制图形(线)
我需要使用直线和仿射变换绘制大量数据点的图形(缩放图形以适合 View )。目前，我正在使用 NSBezierPath，但我认为它效率很低(因为点在绘制之前被复制到贝塞尔路径)。通过将我的数据切割成
image - 从车牌上删除多余的像素/线
我正在使用基于 SVM 分类的 HOG 特征检测器。我可以成功提取车牌，但提取的车牌除了车牌号外还有一些不必要的像素/线。我的图像处理流程如下: 在灰度图像上应用 HOG 检测器裁剪检测到的区域调
python - 间隙填充轮廓/线
我有以下图片: 我想填充它的轮廓(即我想在这张图片中填充线条)。我尝试了形态学闭合，但使用大小为 3x3 的矩形内核和 10 迭代并没有填满整个边界。我还尝试了一个 21x21 内核和 1 迭代，但
algorithm - 统计两组序列的交点(线)
我必须找到一种算法，可以找到两组数组之间的交集总数，而其中一个数组已排序。举个例子，我们有这两个数组，我们向相应的数字画直线。这两个数组为我们提供了总共 7 个交集。有什么样的算法可以帮助我解决
c++ - 如何从带有透视投影的近裁剪平面绘制射线/线？
简单地说 - 我想使用透视投影从近裁剪平面绘制一条射线/线到远裁剪平面。我有我认为是使用各种 OpenGL/图形编程指南中描述的方法通过单击鼠标生成的正确标准化的世界坐标。我遇到的问题是我的光线似乎

首页

博学

6Ren·AI

商城

How would one limit how many threads are used or created by Spark? (Databricks)(如何限制Spark使用或创建的线程数量？(数据库))