gpt4 book ai didi

rdf - Freebase RDF 转储的 Jena 解析问题(2014 年 1 月)

转载 作者:行者123 更新时间:2023-12-05 00:27:04 25 4
gpt4 key购买 nike

我正在尝试使用 Jena 解析 freebase 转储文件 freebase-rdf-2014-01-12-00-00.gz (25 GB)。
Jena 报告了许多关于不良数据的问题。
示例 - 150.0 无效,true 和 false 值无效
我通过在转储文件中在十进制和真/假周围添加双引号解决了这些问题。
然而问题仍在reported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])
有什么办法可以对这些数据进行预处理,这样我就不用一一解决每个问题了。
我的 Java 代码:

    // Open TDB dataset
String directory = "D:/test_dump";
Dataset dataset = TDBFactory.createDataset(directory);

// Assume we want the default model, or we could get a named model here
Model tdb = dataset.getDefaultModel();

// Read the input file - only needs to be done once
String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
FileManager.get().readModel( tdb, source, "N-TRIPLES" );

最佳答案

数据采用 Turtle 格式,而不是 N-Triples。他们使用各种海龟缩写(如 true 代表 "true"^^xsd:boolean 或数字 -27 代表 "-27"^^xsd:integer)。

可能仍然存在错误,因为它们的转储还包含非法语法,例如使用 $在没有必要的前缀名称中 \
在事物周围添加引号会改变 RDF。

关于rdf - Freebase RDF 转储的 Jena 解析问题(2014 年 1 月),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21274368/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com