- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在做一个项目,我需要对远程图执行许多子图合并操作。子图的某些元素可能已经存在于远程图中。我正在使用 py2neo v3 和 neo4j。
我尝试使用 neo4j 的 create
和 merge
功能,但两者的表现都出奇的差。更令人惊讶的是,合并子图所花费的时间似乎随着节点数和关系数呈二次方增长!当子图太大时,事务挂起。我应该说的一件事是我检查了一下,并不是 py2neo 生成了许多随子图的大小呈二次方增长的密码语句。因此,如果出现问题,要么与我使用这些技术的方式有关,要么与 neo4j 的实现有关。我还尝试查看由 py2neo 生成的查询的查询计划,但没有找到任何关于查询时间为何如此急剧增长的答案,但不要相信我的话,因为我相对不熟悉。
我在网上几乎找不到任何相关信息,所以我尝试进行适当的基准测试,根据我是使用合并还是创建操作,比较节点数量和子图拓扑的性能以及我是否使用唯一约束。我在下面列出了我为具有“线性”拓扑的图形获得的一些结果,这意味着关系的数量与节点的数量大致相同(它不会以二次方式增长)。在我的基准测试中,我为随机分配的节点和关系使用了 5 种不同类型的标签,并重用了远程图中已经存在的 30% 的节点。我创建的节点只有一个属性作为标识符,我根据是否在该属性上添加唯一约束来报告性能。所有合并操作都在单个事务中运行。
使用 py2neo create 函数查询具有线性拓扑图的节点数函数的时间
使用 py2neo 合并函数查询具有线性拓扑图的节点数函数的时间
如您所见,花费的时间似乎随着节点(和关系)的数量呈二次方增长。
我很难回答的问题是我是否做错了什么,或者没有做我应该做的事情,或者它是否是我们应该期望 neo4j 为此类操作提供的那种性能。无论如何,为了缓解这个性能问题,我似乎可以做的是永远不要尝试一次合并大的子图,而是先逐批合并节点,然后再合并关系。这可能而且会奏效,但如果有人有任何建议或见解可以分享,我想深入了解这一点。
这是重现上述结果和其他结果的要点列表。 https://gist.github.com/alreadytaikeune/6be006f0a338502524552a9765e79af6
继 Michael Hunger 的问题之后:
在我分享的代码中,我尝试为 neo4j.bolt 日志编写格式化程序,以捕获发送到服务器的查询。然而,我没有系统的方法来为它们生成查询计划。
我没有在没有 docker 的情况下尝试过,而且我没有 SSD。但是,考虑到我为 jvm 分配的大小和我正在处理的图形的大小,所有内容都应该适合 RAM。
我用的是neo4j最新的docker镜像,所以对应的版本好像是3.3.5
最佳答案
不幸的是,v3 中的合并例程(以及其他一些例程)有点天真并且不能很好地扩展。我为 py2neo v4 计划了替代方案,它们构建更高效的查询而不是(在合并的情况下)任意长的 MERGE 语句序列。第 4 版应该会在下个月(2018 年 5 月)的某个时候发布。
关于python - 子图与neo4j和py2neo的缓慢合并,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50025260/
在C语言中,当有变量(假设都是int)i小于j时,我们可以用等式 i^=j^=i^=j 交换两个变量的值。例如,令int i = 3,j = 5;在计算 i^=j^=i^=j 之后,我有 i = 5,
我为以下问题编写了以下代码: 给定一个由 N 个正整数组成的序列 A,编写一个程序来查找满足 i > A[j]A[i](A[i] 的 A[j] 次方 > A[j] 的 A[i] 次方)。 我的代码通过
这个表达式是从左到右解析的吗?我试图解释解析的结果,但最后的结果是错误的。 int j=10, k=10; j+=j-=j*=j; //j=j+(j-=j*=j)=j+(j-j*j) k+=k*=
给定一个整数数组 A ,我试图找出在给定位置 j ,A[j] 从每个 i=0 到 i=j 在 A 中出现了多少次。我设计了一个如下所示的解决方案 map CF[400005]; for(int i=0
你能帮我算法吗: 给定 2 个相同大小的数组 a[]和 b[]具有大于或等于 1 的整数。 查找不相等的索引 i和 j ( i != j ) 使得值 -max(a[i]*b[i] + a[i] * b
每次用J的M.副词,性能显着下降。因为我怀疑艾弗森和许比我聪明得多,我一定是做错了什么。 考虑 Collatz conjecture .这里似乎有各种各样的内存机会,但不管我放在哪里M. ,性能太差了
假设一个包含各种类型的盒装矩阵: matrix =: ('abc';'defgh';23),:('foo';'bar';45) matrix +---+-----+--+|abc|defgh|23|+
是否有可能对于两个正整数 i 和 j,(-i)/j 不等于 -(i/j)?我不知道这是否可能......我认为这将是关于位的东西,或者 char 类型的溢出或其他东西,但我找不到它。有什么想法吗? 最
假设两个不同大小的数组: N0 =: i. 50 N1 =: i. 500 应该有一种方法可以获得唯一的对,只需将两者结合起来即可。我发现的“最简单”是: ]$R =: |:,"2 |: (,.N0)
我是 J 的新用户,我只是想知道 J 包中是否实现了三次样条插值方法? 最佳答案 我自己不熟悉,但是我确实安装了所有的包,所以 $ rg -l -i spline /usr/share/j/9.02
在 Q/kdb 中,您可以使用 ': 轻松修改动词,它代表每个优先级。它会将动词应用于一个元素及其之前的邻居。例如 =': 检查值对是否相等。在 J 中,您可以轻松折叠 /\ 但它是累积的,是否有成对
嗨,我有一个 4x4 双矩阵 A 1+2i 2-1i -3-2i -1+4i 3-1i -3+2i 1-3i -1-3i 4+3i 3+5i 1-2i -1-4i
刚刚发现 J 语言,我输入: 1+^o.*0j1 I expected the answer to be 0 ,但我得到了 0j1.22465e_16。虽然这非常接近于 0,但我想知道为什么 J 应该
这个问题在这里已经有了答案: With arrays, why is it the case that a[5] == 5[a]? (20 个答案) 关闭 3 年前。 我正在阅读“C++ 编程语言”
当第一行是 1, 1/2 , 1/3 ....这是支持该问题的图像。 是否存在比朴素的 O(n^2) 方法更有效的方法? 我在研究伯努利数时遇到了这个问题,然后在研究“Akiyama-Tanigawa
我写了一段Java代码,它在无限循环中运行。 下面是代码: public class TestProgram { public static void main(String[] args){
for (int i = n; i > 0; i /= 2) { for (int j = 0; j 0; i /= 2) 的第一个循环结果 O(log N) . 第二个循环for (int
如问题中所述,需要找到数组中 (i,j) 对的总数,使得 (1) **ia[j]** 其中 i 和 j 是数组的索引。没有空间限制。 我的问题是 1) Is there any approach w
for l in range(1,len(S)-1): for i in range(1,len(S)-l): j=i+l for X in N:
第二个for循环的复杂度是多少?会是n-i吗?根据我的理解,第一个 for 循环将执行 n 次,但第二个 for 循环中的索引设置为 i。 //where n is the number elemen
我是一名优秀的程序员,十分优秀!