gpt4 book ai didi

java - 从 Apache TDB 加载数据集/模型的性能问题

转载 作者:行者123 更新时间:2023-12-02 04:59:35 26 4
gpt4 key购买 nike

我有一个 RDF 文件,其中包含 7MB 和约 80k 语句。

启动应用程序时,我有以下代码,用于检索我需要向用户显示的项目列表:

           NodeIterator iterator = technologyModel.listObjectsOfProperty(subject);
while (iterator.hasNext()) {
RDFNode node = iterator.nextNode();
myCollection.add(node.asLiteral().getString().trim());
}

注意:此代码运行良好,返回大约 3k 个结果,并且是第一次访问“technologyModel”。

显然,在这样做之前,我必须加载数据集/模型,这就是问题所在。

案例 (1) 当我从 RDF 文件加载数据集/模型时,执行以下操作:

    InputStream in = FileManager.get().open(ParamsHelper.sourceRDF);
technologyModel.read(in, "RDF/XML-ABBREV");

技术模型似乎立即加载,并且发布的第一个代码在不到一秒的时间内运行。

情况 (2) 但是,当我尝试从 TDB 数据库加载模型时(之前加载了与第一种情况相同的 RDF 文件),使用以下代码:

    dataset = TDBFactory.createDataset(ParamsHelper.tdbBaseDir);
dataset.begin(ReadWrite.READ) ;
technologyModel = dataset.getNamedModel("http://a.example.biz/technology");
dataset.end();

technologyModel 似乎没有立即加载,即使发布的第一个代码按预期返回,但它在第一次调用时运行大约 30 秒。

如果我在第一次之后调用相同的代码,或者例如在第一次调用此代码之前插入另一个操作(例如 technologyModel.listSubjects()),它将立即运行,如预期的那样。

在我看来,在第二种情况下,模型仅在第一次操作后才真正加载。这有什么意义吗?

我不想将数据保存在 RDF 文件中,而是希望使用 TDB 数据库来存储三元组。这就是为什么第二个选项似乎更适合我。

有人可以帮我解决这个问题吗?我希望我能正确地揭露问题。

提前致谢。

最佳答案

这里有两个效果:

TDBFactory.createDataset 未加载任何数据 - 它连接到数据库。数据在使用时加载到内存(缓存)中,因此当您第一次执行 listObjectsOfProperty 时,所有缓存都是冷的,数据库很可能很慢。它对您此时运行的硬件非常敏感。

第二个是模型 API 调用可能具有对数据库不友好的访问模式。最好在数据集上使用 SPARQL。

顺便说一句:listObjectsOfProperty 不接受主题 - 它接受属性并可以访问大量数据库。如果 myCollection 是一个集合,那么您可能会添加超过 3K 的项目。

关于java - 从 Apache TDB 加载数据集/模型的性能问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28411430/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com