在 neo4j 中使用大量数据的 Java 堆空间错误-6ren

在 neo4j 中使用大量数据的 Java 堆空间错误

转载作者：行者123 更新时间：2023-11-29 03:30:25

27

4

我目前正在根据将大量节点/关系插入到图中来评估 neo4j。这与可以通过批量插入实现的初始插入无关。它是关于在嵌入式模式下使用 neo4j 的 java 应用程序在运行时频繁处理的插入(当前版本 1.8.1，因为它随 spring-data-neo4j 2.2.2.RELEASE 一起提供)。

这些插入通常是遵循星形模式 的节点。一个节点(导入数据集的根节点)有多达 1000000(一百万!) 个连接的子节点。子节点通常也与其他附加节点有关系。但到目前为止，这些关系并未包含在该测试中。 总体目标是在最多五分钟内导入该数量的数据!

为了模拟此类插入，我编写了一个小型 junit 测试，它使用 Neo4jTemplate 创建节点和关系。每个插入的叶子都有一个关联的键以供以后处理:

@Test
@Transactional
@Rollback
public void generateUngroupedNode()
        {
        long numberOfLeafs = 1000000;
        Assert.assertTrue(this.template.transactionIsRunning());
        Node root = this.template.createNode(map(NAME, UNGROUPED));
        String groupingKey = null;
        for (long index = 0; index < numberOfLeafs; index++)
            {
            // Just a sample division of leafs to possible groups
            // Creates keys to be grouped by to groups containing 2 leafs each
            if (index % 2 == 0)
                {
                groupingKey = UUID.randomUUID().toString();
                }
            Node leaf = this.template.createNode(map(GROUPING_KEY, groupingKey, NAME, LEAF));
            this.template.createRelationshipBetween(root, leaf, Relationships.LEAF.name(),
                    map());
            }
        }

对于此测试，我使用 gcr 缓存来避免垃圾收集器问题:

cache_type=gcr
node_cache_array_fraction=7
relationship_cache_array_fraction=5
node_cache_size=400M
relationship_cache_size=200M

此外，我将 MAVEN_OPTS 设置为:

export MAVEN_OPTS="-Xmx4096m -Xms2046m -XX:PermSize=256m -XX:MaxPermSize=512m -XX:+UseConcMarkSweepGC -XX:-UseGCOverheadLimit"

但无论如何，在运行该测试时，我总是得到一个 Java heap space 错误:

java.lang.OutOfMemoryError: Java heap space
    at java.lang.Class.getDeclaredMethods0(Native Method)
    at java.lang.Class.privateGetDeclaredMethods(Class.java:2427)
    at java.lang.Class.getMethod0(Class.java:2670)
    at java.lang.Class.getMethod(Class.java:1603)
    at org.apache.commons.logging.LogFactory.directGetContextClassLoader(LogFactory.java:896)
    at org.apache.commons.logging.LogFactory$1.run(LogFactory.java:862)
    at java.security.AccessController.doPrivileged(Native Method)
    at org.apache.commons.logging.LogFactory.getContextClassLoaderInternal(LogFactory.java:859)
    at org.apache.commons.logging.LogFactory.getFactory(LogFactory.java:423)
    at org.apache.commons.logging.LogFactory.getLog(LogFactory.java:685)
    at org.springframework.transaction.support.TransactionTemplate.<init>(TransactionTemplate.java:67)
    at org.springframework.data.neo4j.support.Neo4jTemplate.exec(Neo4jTemplate.java:403)
    at org.springframework.data.neo4j.support.Neo4jTemplate.createRelationshipBetween(Neo4jTemplate.java:367)

我用较少的数据做了一些测试，结果如下。 1 个节点连接到:

50000 片叶子:3035 毫秒
100000 片叶子:4290 毫秒
200000 片叶子:10268 毫秒
400000 片叶子:20913ms
800000 叶:Java 堆空间

这是这些操作期间系统监视器的屏幕截图:

System Monitor

为了更好地了解什么正在运行并存储在堆中，我在最后一次测试(800000 个叶子)中运行了 JProfiler。以下是一些屏幕截图:

堆使用情况:

HEAP

CPU 使用率:

CPU

对我来说最大的问题是:neo4j 不是为使用这种海量数据而设计的吗？还是有其他方法可以实现这种插入(以及以后的操作)？在 neo4j 官方网站和各种截屏视频中，我发现 neo4j 能够运行数十亿个节点和关系的信息(例如 http://docs.neo4j.org/chunked/stable/capabilities-capacity.html )。我没有找到任何可用的功能，例如 flush() 和 clean() 方法，例如在 JPA 中手动保持堆清洁。

如果能够将 neo4j 用于这些数据量，那就太好了。图中已经存储了 200000 个叶子，我注意到与嵌入式经典 RDBMS 相比，性能提高了 10 倍甚至更多。我不想放弃像 neo4j 提供的数据建模和查询这些数据的好方法。

最佳答案

仅使用 Neo4j 核心 API，创建子项需要 18 到 26 秒，我的 MacBook Air 没有任何优化:

输出:导入 1000000 个 child 用了 26 秒。

public class CreateManyRelationships {

    public static final int COUNT = 1000 * 1000;
    public static final DynamicRelationshipType CHILD = DynamicRelationshipType.withName("CHILD");
    public static final File DIRECTORY = new File("target/test.db");

    public static void main(String[] args) throws IOException {
        FileUtils.deleteRecursively(DIRECTORY);
        GraphDatabaseService gdb = new GraphDatabaseFactory().newEmbeddedDatabase(DIRECTORY.getAbsolutePath());
        long time=System.currentTimeMillis();
        Transaction tx = gdb.beginTx();
        Node root = gdb.createNode();
        for (int i=1;i<= COUNT;i++) {
            Node child = gdb.createNode();
            root.createRelationshipTo(child, CHILD);
            if (i % 50000 == 0) {
                tx.success();tx.finish();
                tx = gdb.beginTx();
            }
        }
        tx.success();tx.finish();
        time = System.currentTimeMillis()-time;
        System.out.println("import of "+COUNT+" children took " + time/1000 + " seconds.");
        gdb.shutdown();
    }
}

和 Spring Data Neo4j docs state , 它不是为这种类型的任务而制作的

关于在 neo4j 中使用大量数据的 Java 堆空间错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18575783/

27

4

0

文章推荐： PHP 从两个不同的表中选择 *？

文章推荐： ios - iOS 版 Starling 游戏被 App Review 拒绝

文章推荐： PHP 脚本报告错误的凭据

文章推荐： ios - UITableViewCell 中的 mask 图像

javascript - 为什么 i^=j^=i^=j 不等于 *i^=*j^=*i^=*j
在C语言中，当有变量(假设都是int)i小于j时，我们可以用等式 i^=j^=i^=j 交换两个变量的值。例如，令int i = 3，j = 5；在计算 i^=j^=i^=j 之后，我有 i = 5，
c - 查找满足 i < j 且 A[i]**A[j] > A[j]**A[i] 的对 (A[i], A[j]) 的数量
我为以下问题编写了以下代码: 给定一个由 N 个正整数组成的序列 A，编写一个程序来查找满足 i > A[j]A[i](A[i] 的 A[j] 次方 > A[j] 的 A[i] 次方)。我的代码通过
java - 表达式j+=j-=j*j和j+=j*=j-=j的结果和解析结果是什么？ (多个等于)
这个表达式是从左到右解析的吗？我试图解释解析的结果，但最后的结果是错误的。 int j=10, k=10; j+=j-=j*=j; //j=j+(j-=j*=j)=j+(j-j*j) k+=k*=
c++ - 给定索引 i,j(j>=i) 如何找到子数组 (i,j) 中 A[j] 的频率？
给定一个整数数组 A ，我试图找出在给定位置 j ，A[j] 从每个 i=0 到 i=j 在 A 中出现了多少次。我设计了一个如下所示的解决方案 map CF[400005]; for(int i=0
arrays - 最大化 A[i]*B[i] + A[i]*B[j] + A[j]*B[j], i != j，给定两个正整数的无序列表
你能帮我算法吗: 给定 2 个相同大小的数组 a[]和 b[]具有大于或等于 1 的整数。查找不相等的索引 i和 j ( i != j ) 使得值 -max(a[i]*b[i] + a[i] * b
j - J 中的内存
每次用J的M.副词，性能显着下降。因为我怀疑艾弗森和许比我聪明得多，我一定是做错了什么。考虑 Collatz conjecture .这里似乎有各种各样的内存机会，但不管我放在哪里M. ，性能太差了
j - J 中的链式动词
假设一个包含各种类型的盒装矩阵: matrix =: ('abc';'defgh';23),:('foo';'bar';45) matrix +---+-----+--+|abc|defgh|23|+
c - 是否有可能对于两个正整数 i 和 j，(-i)/j 不等于 -(i/j)？
是否有可能对于两个正整数 i 和 j，(-i)/j 不等于 -(i/j)？我不知道这是否可能......我认为这将是关于位的东西，或者 char 类型的溢出或其他东西，但我找不到它。有什么想法吗？最
j - J 中不等数组的唯一对
假设两个不同大小的数组: N0 =: i. 50 N1 =: i. 500 应该有一种方法可以获得唯一的对，只需将两者结合起来即可。我发现的“最简单”是: ]$R =: |:,"2 |: (,.N0)
j - J 中是否实现了三次样条插值方法？
我是 J 的新用户，我只是想知道 J 包中是否实现了三次样条插值方法？最佳答案我自己不熟悉，但是我确实安装了所有的包，所以 $ rg -l -i spline /usr/share/j/9.02
j - J 中的每个前置副词
在 Q/kdb 中，您可以使用 ': 轻松修改动词，它代表每个优先级。它会将动词应用于一个元素及其之前的邻居。例如 =': 检查值对是否相等。在 J 中，您可以轻松折叠 /\ 但它是累积的，是否有成对
matlab - 如何在 MATLAB 中将矩阵变为 1+j、1-j、-1+j、-1-j
嗨，我有一个 4x4 双矩阵 A 1+2i 2-1i -3-2i -1+4i 3-1i -3+2i 1-3i -1-3i 4+3i 3+5i 1-2i -1-4i
j - J 中的欧拉恒等式
刚刚发现 J 语言，我输入: 1+^o.*0j1 I expected the answer to be 0 ，但我得到了 0j1.22465e_16。虽然这非常接近于 0，但我想知道为什么 J 应该
c++ - 为什么对于每个数组 a 和整数 j，a[j] 都等于 j[a]？
这个问题在这里已经有了答案: With arrays, why is it the case that a[5] == 5[a]? (20 个答案) 关闭 3 年前。我正在阅读“C++ 编程语言”
algorithm - 当 A[i,j]=j*(A[i-1,j+1]-A[i-1,j]) 时，找到第 i 行第一个元素的最有效方法是什么？
当第一行是 1, 1/2 , 1/3 ....这是支持该问题的图像。是否存在比朴素的 O(n^2) 方法更有效的方法？我在研究伯努利数时遇到了这个问题，然后在研究“Akiyama-Tanigawa
java - 为什么 (i<=j && j<=i && i!=j) 评估为 TRUE？
我写了一段Java代码，它在无限循环中运行。下面是代码: public class TestProgram { public static void main(String[] args){
big-o - 嵌套循环的大O (int j = 0; j < i; j++)
for (int i = n; i > 0; i /= 2) { for (int j = 0; j 0; i /= 2) 的第一个循环结果 O(log N) . 第二个循环for (int
arrays - 找出数组中满足 ia[j] 的 (i,j) 对的总数
如问题中所述，需要找到数组中 (i,j) 对的总数，使得 (1) **ia[j]** 其中 i 和 j 是数组的索引。没有空间限制。我的问题是 1) Is there any approach w
python 当 s 在范围(i,j-1) : j=3 but before range it was j=2 . ..请帮助我时，我的 j 值发生变化
for l in range(1,len(S)-1): for i in range(1,len(S)-l): j=i+l for X in N:
time-complexity - 这个 for 循环的复杂度是多少，for (int j = i; j < n; j++)？
第二个for循环的复杂度是多少？会是n-i吗？根据我的理解，第一个 for 循环将执行 n 次，但第二个 for 循环中的索引设置为 i。 //where n is the number elemen

首页

博学

6Ren·AI

商城

在 neo4j 中使用大量数据的 Java 堆空间错误