使用 TDB 的 apache Jena 中的 Java OutOfMemoryError-6ren

使用 TDB 的 apache Jena 中的 Java OutOfMemoryError

转载作者：行者123 更新时间：2023-11-29 08:33:23

您好，我一直在将 Jena 用于一个项目，现在我正在尝试查询图形以存储在普通文件中，以便使用 Hadoop 进行批处理。

我打开一个 TDB 数据集，然后我使用 LIMIT 和 OFFSET 按页面查询。

我输出每个文件有 100000 个三元组的文件。

然而，在第 10 个文件中，性能下降，在第 15 个文件中，性能下降了 3 倍，在第 22 个文件中，性能下降到 1%。

我的查询是:

SELECT DISTINCT ?S ?P ?O WHERE {?S ?P ?O .} LIMIT 100000 OFFSET X

查询和写入文件的方法在下一个代码块中显示:

public boolean copyGraphPage(int size, int page, String tdbPath, String query, String outputDir, String fileName) throws IllegalArgumentException {
        boolean retVal = true;
        if (size == 0) {
            throw new IllegalArgumentException("The size of the page should be bigger than 0");
        }
        long offset = ((long) size) * page;
        Dataset ds = TDBFactory.createDataset(tdbPath);
        ds.begin(ReadWrite.READ);
        String queryString = (new StringBuilder()).append(query).append(" LIMIT " + size + " OFFSET " + offset).toString();
        QueryExecution qExec = QueryExecutionFactory.create(queryString, ds);
        ResultSet resultSet = qExec.execSelect();
        List<String> resultVars;
        if (resultSet.hasNext()) {
            resultVars = resultSet.getResultVars();
            String fullyQualifiedPath = joinPath(outputDir, fileName, "txt");
            try (BufferedWriter bwr = new BufferedWriter(new OutputStreamWriter(new BufferedOutputStream(
                    new FileOutputStream(fullyQualifiedPath)), "UTF-8"))) {
                while (resultSet.hasNext()) {
                    QuerySolution next = resultSet.next();
                    StringBuffer sb = new StringBuffer();
                    sb.append(next.get(resultVars.get(0)).toString()).append(" ").
                            append(next.get(resultVars.get(1)).toString()).append(" ").
                            append(next.get(resultVars.get(2)).toString());
                    bwr.write(sb.toString());
                    bwr.newLine();
                }
                qExec.close();
                ds.end();
                ds.close();
                bwr.flush();
            } catch (IOException e) {
                e.printStackTrace();
            }
            resultVars = null;
            qExec = null;
            resultSet = null;
            ds = null;
        } else {
            retVal = false;
        }
        return retVal;
    }

空变量在那里是因为我不知道那里是否可能存在泄漏。

但是在第 22 个文件之后程序失败并显示以下消息:

java.lang.OutOfMemoryError: GC overhead limit exceeded

    at org.apache.jena.ext.com.google.common.cache.LocalCache$EntryFactory$2.newEntry(LocalCache.java:455)
    at org.apache.jena.ext.com.google.common.cache.LocalCache$Segment.newEntry(LocalCache.java:2144)
    at org.apache.jena.ext.com.google.common.cache.LocalCache$Segment.put(LocalCache.java:3010)
    at org.apache.jena.ext.com.google.common.cache.LocalCache.put(LocalCache.java:4365)
    at org.apache.jena.ext.com.google.common.cache.LocalCache$LocalManualCache.put(LocalCache.java:5077)
    at org.apache.jena.atlas.lib.cache.CacheGuava.put(CacheGuava.java:76)
    at org.apache.jena.tdb.store.nodetable.NodeTableCache.cacheUpdate(NodeTableCache.java:205)
    at org.apache.jena.tdb.store.nodetable.NodeTableCache._retrieveNodeByNodeId(NodeTableCache.java:129)
    at org.apache.jena.tdb.store.nodetable.NodeTableCache.getNodeForNodeId(NodeTableCache.java:82)
    at org.apache.jena.tdb.store.nodetable.NodeTableWrapper.getNodeForNodeId(NodeTableWrapper.java:50)
    at org.apache.jena.tdb.store.nodetable.NodeTableInline.getNodeForNodeId(NodeTableInline.java:67)
    at org.apache.jena.tdb.store.nodetable.NodeTableWrapper.getNodeForNodeId(NodeTableWrapper.java:50)
    at org.apache.jena.tdb.solver.BindingTDB.get1(BindingTDB.java:122)
    at org.apache.jena.sparql.engine.binding.BindingBase.get(BindingBase.java:121)
    at org.apache.jena.sparql.engine.binding.BindingProjectBase.get1(BindingProjectBase.java:52)
    at org.apache.jena.sparql.engine.binding.BindingBase.get(BindingBase.java:121)
    at org.apache.jena.sparql.engine.binding.BindingProjectBase.get1(BindingProjectBase.java:52)
    at org.apache.jena.sparql.engine.binding.BindingBase.get(BindingBase.java:121)
    at org.apache.jena.sparql.engine.binding.BindingBase.hashCode(BindingBase.java:201)
    at org.apache.jena.sparql.engine.binding.BindingBase.hashCode(BindingBase.java:183)
    at java.util.HashMap.hash(HashMap.java:338)
    at java.util.HashMap.containsKey(HashMap.java:595)
    at java.util.HashSet.contains(HashSet.java:203)
    at org.apache.jena.sparql.engine.iterator.QueryIterDistinct.getInputNextUnseen(QueryIterDistinct.java:106)
    at org.apache.jena.sparql.engine.iterator.QueryIterDistinct.hasNextBinding(QueryIterDistinct.java:70)
    at org.apache.jena.sparql.engine.iterator.QueryIteratorBase.hasNext(QueryIteratorBase.java:114)
    at org.apache.jena.sparql.engine.iterator.QueryIterSlice.hasNextBinding(QueryIterSlice.java:76)
    at org.apache.jena.sparql.engine.iterator.QueryIteratorBase.hasNext(QueryIteratorBase.java:114)
    at org.apache.jena.sparql.engine.iterator.QueryIteratorWrapper.hasNextBinding(QueryIteratorWrapper.java:39)
    at org.apache.jena.sparql.engine.iterator.QueryIteratorBase.hasNext(QueryIteratorBase.java:114)
    at org.apache.jena.sparql.engine.iterator.QueryIteratorWrapper.hasNextBinding(QueryIteratorWrapper.java:39)
    at org.apache.jena.sparql.engine.iterator.QueryIteratorBase.hasNext(QueryIteratorBase.java:114)

Disconnected from the target VM, address: '127.0.0.1:57723', transport: 'socket'

Process finished with exit code 255

内存查看器在查询页面后显示内存使用量的增加:

很明显，Jena LocalCache 正在填满，我已将 Xmx 更改为 2048m，将 Xms 更改为 512m，结果相同。什么都没有改变。

我需要更多内存吗？

我需要清除一些东西吗？

我是否需要停止程序并分段执行？

我的查询有误吗？

OFFSET与它有什么关系吗？

我在一些旧的邮件帖子中读到您可以关闭缓存，但我找不到任何方法来做到这一点。有没有办法关闭缓存？

我知道这是一个非常困难的问题，但我感谢您的帮助。

最佳答案

It is clear that Jena LocalCache is filling up

这是 TDB 节点缓存 - 每个数据集本身通常需要 1.5G(2G 更好)。此缓存在 JVM 的生命周期内持续存在。

一个2G的java堆，按照今天的标准，就是一个小的Java堆。如果你必须使用小堆，你可以尝试在 32 位模式下运行(在 TDB 中称为“直接模式”)但是这样性能较低(主要是因为节点缓存较小并且在这个数据集中你确实有足够的节点导致缓存搅动一个小缓存)。

节点缓存是堆耗尽的主要原因，但查询正在其他地方消耗内存，每个查询，在 DISTINCT 中。

DISTINCT 不一定便宜。它需要记住它看到的所有内容，以了解新行是第一次出现还是已经看到。

Apache Jena 确实优化了(TopN 查询)的某些情况，但截断优化默认为 1000。见代码中的OpTopN。

否则它将收集到目前为止看到的所有行。您越深入数据集，节点缓存中的内容就越多，也比 DISTINCT 过滤器中的内容越多。

Do I need more memory?

是的，更多堆。合理的最小值是每个 TDB 数据集 2G，然后是 Java 本身需要的任何大小(比如 0.5G)，再加上您的程序和查询工作区。

关于使用 TDB 的 apache Jena 中的 Java OutOfMemoryError，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45992176/

文章推荐： rust - 如何在 Rust 中为应用程序上下文创建句柄？

文章推荐： php - 如何选择一列中文本较长的行

文章推荐： rust - 仅将功能导出到模块测试？

文章推荐： php - PHP 中出现 PDOException，MySQL 中没有错误

java.lang.OutOfMemoryError : OutOfMemoryError thrown while trying to throw OutOfMemoryError; no stack trace available 错误
我正在尝试将用户提供的经纬度值与数据库中的经纬度值进行比较。如果它们在彼此半径 15 公里内，则应更改 TextView 。但我面临以下错误，我的数据库包含值 source lat = 19.218
android - 如何修复尝试通过改造抛出 OutOfMemoryError 时抛出的 OutOfMemoryError
我在我的应用程序中使用改造来下载一些媒体文件，如视频、mp3、jpg、pdf 等。当我想下载一个 55MB 的 mp4 格式的大文件时，这是一个问题。当我想下载这个文件时，我收到这样的错误: OutO
java - (Android) 尝试抛出 OutOfMemoryError 时抛出 OutOfMemoryError
所以我正在创建一个 Android 应用程序，这段代码引发了 "Caused by: java.lang.OutOfMemoryError: OutOfMemoryError thrown while
android - 我在 Android 中得到 "OutOfMemoryError thrown while trying to throw OutOfMemoryError; no stack available"
直到昨天，我的应用程序运行良好，但我所做的是，由于某些原因，我不得不在 Android Studio 中打开具有不同工作空间的同一个应用程序。从那时起，当我尝试运行该应用程序时，我遇到了以下异常，所以
java - 如何解决 java.lang.OutOfMemoryError : Java heap space in the case when increasing the heap size will mean delayed OutOfMemoryError
我正在尝试构建一个应用程序，其中客户端将其屏幕发送到服务器，客户端仅在上次发送屏幕和最新捕获的屏幕之间存在差异时才发送其屏幕(以便该程序在网络)。服务器使用 JFrame 和 JLabel 来显示图像
python - Cupy OutOfMemoryError 尝试在内存映射模式下 cupy.load 较大尺寸的 .npy 文件时出现 Cupy OutOfMemoryError 错误，但 np.load 工作正常
我正在尝试使用内存映射模式在 cupy 中加载一些较大的 .npy 文件，但我不断遇到 OutOfMemoryError 。我认为，由于它是在内存映射模式下打开的，因此此操作不应该占用太多内存，因为
GradleWorkerMain OutOfMemoryError
我正在尝试对基于 ant 的(Netbeans RCP)项目进行分级并找到奇怪的分级行为。我用探查器做了一些观察，得到了下一个结果。环境配置 Gradle 1.9 Build time: 20
检索大量数据时的Android OutOfMemoryError
我有一个应用程序可以进行网络调用并检索 XML 数据。如果没有太多数据，下面的代码可以正常工作。 public class WebClient { private static final S
刷新数据时Android OutOfMemoryError
在我的应用程序中，我每 3 分钟刷新一次数据。如果应用程序可以工作几个小时，我会遇到这样的错误: java.lang.OutOfMemoryError at org.apache.http.util.
Android OutOfMemoryError :?
我在我的一个应用程序中偶尔收到 OutOfMemoryError: (Heap Size=49187KB, Allocated=41957KB)。我该怎么做才能诊断？ 01-09 10:32:02
java - 如何解决 OutOfMemoryError？
对于学校项目，我必须编写不同类型的算法。问题是，我得到了一个工作算法。但是我必须多次运行它，一段时间后它给了我以下错误: Exception in thread "main" java.lang.Ou
clojure - 惰性序列中的 OutOfMemoryError
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: Recursive function causing a stack overflow 完成示例惰性序列 here
java - OutOfMemoryError 即使有足够的可用内存
我收到 java.lang.OutOfMemoryError 错误，即使我还有足够的空闲 RAM。我进行的内存转储在 200MB 到 1GB 之间，而我的服务器有 24GB 的 RAM。我设置了 -X
java - 为什么没有 OutOfMemoryError
我不明白为什么这段代码没有OutOfMemoryError public static void main(String[] args) { Object[] ref = new Object
java - OutOfMemoryError java堆空间
我正在使用这个语句 //some code int a[][]=new int[5000000][5000000]; //some code 并使用命令运行它 java -mx512m Test 它给
java - 分配大于堆的数组时出现意外的 OutOfMemoryError
今天我在玩OOM错误，我发现了一些我自己无法解释的东西。我尝试分配一个比堆大的数组，期望 “请求的阵列大小超出 VM 限制”错误，但我得到一个“ Java 堆空间 ”错误。根据JDK 11 doc
xamarin - 加载图像时出现 OutOfMemoryError
我有一个显示图像的简单页面。来源是 URL var img = new Image (); var source = new UriImageSource { Uri =
java - 是否保证会抛出Java OutOfMemoryError
我有一个 Java Spring Boot 应用程序。它是一个非常大的应用程序，具有许多服务，并且可以执行大量任务。我尝试实现的新任务之一是从 Oracle DB 读取一些数据并通过 REST 将其发
Java在读取文件但同时使用流时避免java.lang.OutOfMemoryError
我正在尝试使用流读取一个非常大的文件，因此我需要并行流而不是每行迭代...我正在尝试如下: String cont = new String(Files.readAllBytes(Paths.get(
Java OutOfMemoryError 奇怪的行为
假设我们的最大内存为 256M，为什么这段代码可以工作: public static void main(String... args) { for (int i = 0; i < 2; i++)

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

使用 TDB 的 apache Jena 中的 Java OutOfMemoryError