gpt4 book ai didi

sparql - 查询内存不足的大型 RDF 数据集

转载 作者:行者123 更新时间:2023-12-04 15:00:10 25 4
gpt4 key购买 nike

我想在我的机器上下载两个或更多数据集,并能够为每个数据集启动一个 SPARQL 端点。我尝试了 Fuseki,它是 Jena 项目的一部分。但是,它将整个数据集加载到内存中,如果我打算查询像 DBpedia 这样的大型数据集,这不是很需要,因为我打算做其他事情(启动多个 SPARQL 端点并在它们上使用联合查询系统)。

为了提醒您,我打算使用 SILK 链接多个数据集,使用 FEDX 查询它们联合查询系统。如果您建议对我正在使用的系统进行任何更改,或者可以给我提示,那就太好了。如果你建议一个适合这个项目的数据集,它也会有很大帮助。

最佳答案

Jena 的 Fuseki 可以使用 TDB 作为存储机制,TDB 将东西存储在磁盘上。关于 caching on 32 and 64 bit Java systems 的 TDB 文档讨论文件内容映射到内存的方式。我不相信 TDB/Fuseki 将整个数据集加载到内存中;这对于大型数据集是不可行的,但 TDB 可以处理相当大的数据集。我认为您应该考虑使用 tdbloader创建 TDB 存储;然后你可以将 Fuseki 指向它。

this answer 中有一个设置 TDB 存储的示例。 .在那里,使用 tdbquery 执行查询,但根据 Running a Fuseki server文档的一部分,使用相同的 TDB 存储启动 Fuseki 所需要做的就是使用 --loc=DIR选项:

  • --loc=DIR
    Use an existing TDB database. Create an empty one if it does not exist.

关于sparql - 查询内存不足的大型 RDF 数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17005778/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com