rdf - Freebase RDF 转储的 Jena 解析问题(2014 年 1 月)-6ren

rdf - Freebase RDF 转储的 Jena 解析问题(2014 年 1 月)

转载作者：行者123 更新时间：2023-12-05 00:27:04

25

4

我正在尝试使用 Jena 解析 freebase 转储文件 freebase-rdf-2014-01-12-00-00.gz (25 GB)。
Jena 报告了许多关于不良数据的问题。
示例 - 150.0 无效，true 和 false 值无效
我通过在转储文件中在十进制和真/假周围添加双引号解决了这些问题。
然而问题仍在reported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])
有什么办法可以对这些数据进行预处理，这样我就不用一一解决每个问题了。
我的 Java 代码:

    // Open TDB dataset
    String directory = "D:/test_dump";
    Dataset dataset = TDBFactory.createDataset(directory);

    // Assume we want the default model, or we could get a named model here
    Model tdb = dataset.getDefaultModel();

    // Read the input file - only needs to be done once
    String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
    FileManager.get().readModel( tdb, source, "N-TRIPLES" );

最佳答案

数据采用 Turtle 格式，而不是 N-Triples。他们使用各种海龟缩写(如 true 代表 "true"^^xsd:boolean 或数字 -27 代表 "-27"^^xsd:integer)。

可能仍然存在错误，因为它们的转储还包含非法语法，例如使用 $在没有必要的前缀名称中 \
在事物周围添加引号会改变 RDF。

关于rdf - Freebase RDF 转储的 Jena 解析问题(2014 年 1 月)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21274368/

25

4

0

文章推荐： .net - System.Web.Razor 与 System.Web.WebPages.Razor

文章推荐： r - 按因子级别对数据框进行子集化

文章推荐： google-chrome - Chrome 开发者工具放大镜已从 Chrome 32 中消失

rdf - 为什么必须 rdf :dataType subclass rdf:Class in RDF?
来自 RDF Schema 1.1 2.4 rdfs:Datatype rdfs:Datatype is the class of datatypes. All instances of rdfs:D
rdf - 我什么时候应该使用 rdf :ID instead of rdf:about?
我遇到了books ontology ，在 owl 的底部文档，我们有: A reservation has been made by a person for a boo
rdf - RDF 文件中的属性顺序
在 RDF/XML 文件中具有属性的订单是否重要？换句话说，以下两个相同吗？ 1 2 2 1 最佳答案是的，RDF 在数学上被定义为一组三元组，因此这些三元组在您使用
rdf - RDF 中的空白节点
我刚开始学习 RDF，我的问题是: 空白节点的目的是什么？例子: ex:John foaf:knows _:p1 _:p1 foaf:birthDate 04-21 这
rdf - RDF 文件中的属性
让我们看看这个例子:http://dbpedia.org/page/Berlin “owl:sameAs”和“is owl:sameAs of”有什么区别最佳答案 owl:sameAs 是一个对称属
rdf - RDF 数据中的简单版本控制
许多数据集都有变化的历史。将历史数据作为关联数据提供可能是一个挑战。我正在考虑的一般情况是，数据集包含有关具有可以随时间变化的属性的事物的数据。一个例子可能是温莎城堡的历史:它过去有很多配置，但它仍然
rdf - RDF 文件未按预期生成三元组
我正在使用 MarkLogic 8.0-6.3 使用 sem:rdf-load 从 RDF 文件生成三元组时很少有三元组没有被创建。我已经粘贴了 RDF 文件内容、生成的三元组和我用来加载文件的查询
rdf - 如何创建可重用谓词 (RDF)？
在这里完成 RDF 新手，我正在努力理解如何创建合理且可重用的谓词。我问了我们公司的几位专家，但他们的谓词(被迫)通过复制对象是唯一的(例如 woman,has_a_bag,purse 与 woman
rdf - RDF 中具体化的简单示例
谁能给我一个 RDF 中具体化的简单例子？我想看看我是否理解正确。例如，我提出以下案例 Tolkien -> wrote -> Lord of the rings /|\
rdf - RDF 可以对具有边缘属性的标记属性图进行建模吗？
我想对如下所示的合作伙伴关系进行建模，我以标记属性图的格式表示。我想使用RDF语言来表达上面的图，特别是我想了解是否可以表达“loves”边的标签(这是一篇文章/信件的URI)。我是RDF新手，我
rdf - 通过SPARQL查询古腾堡项目catalog.rdf
我在构建 Project Gutenberg 目录的 SPARQL 查询时遇到困难(可在页面底部的 Gutenberg Feeds 获取)。我知道我对 SparQL/RDF 等如何工作缺乏了解。实际上
rdf - RDF 中的度量单位本体有多实用？
我正在用 RDF 创建一个 Material 集合。我遇到了两种处理度量单位的方法: 通过将描述性名称链接到 RDF 属性: prop:density prop:hasUnits "kg/m
rdf - RDF 属性可以包含其他属性吗？
RDF:Property 是否可以包含其他属性以及 rdf:range 和 rdf:domain。例如，您是否可以拥有以下内容: This is a member of
rdf - 我可以说 RDF Schema (RDFS) 是 RDF 的本体吗？
我对 RDF 和 RDF Schema (RDFS) 有点困惑。我读过一些文档，其中提到 rdfs 是为 RDF 定义词汇表。根据这个定义，我可以说 RDFS 是像 OWL 或 Dublin Cor
xml - rdf :resource, rdf:about 和 rdf:ID 的区别
rdf:resource、rdf:about 和 rdf:ID 之间在概念上有什么区别。我做了一些调查，但我还不清楚它们之间的区别。例如，第一次声明资源时是否使用rdf:ID，rdf:resource
rdf - 使用 SPARQL 查询 RDF 中的非 XSD、RDF 等数据类型
这是rdf代码: 42 我需要得到号码 "42" .我试过这个: PREFIX soton: PREFIX skos: ?location skos:notation rdf:
rdf - RDF/OWL 中的字符串操作
关于语义网的初学者问题。我有一个颜色知识库，其中包括相似的颜色、颜色修饰符(暗、亮、~ish 等)、颜色关系(更深、更亮)、颜色同义词等。我想弄清楚 RDF/OWL 是否是一个操作(主要是查询)这个
rdf - 加速 rdf 文件的芝麻加载
有什么办法可以加快 rdf 文件加载到 Sesame 中的速度吗？我有 N-triple 格式的文件，大小从几 MB 到几 GB。我已经尝试了 Sesame Cook Book 中的前三种方法，但无济
rdf - 如何在 RDF 三元组中用间接宾语表示一个句子？
例如，这句话: "I give John a book." 使其成为一组三元组: I give John. John hasIndirect book. book count 1. 或者，它可以是:
rdf - Turtle RDF 序列化中的反向属性路径？
在 RDF 图的 Turtle 序列化中，我有很多这样的三元组(很多个体，都有一个共同的类型值): :A a :b . :B a :b . :C a :b . :D a :b . # … :Z a :

首页

博学

6Ren·AI

商城

rdf - Freebase RDF 转储的 Jena 解析问题(2014 年 1 月)