gpt4 book ai didi

rdf - Apache Jena 获取 "ERROR riot"处理元素

转载 作者:行者123 更新时间:2023-12-04 21:49:58 25 4
gpt4 key购买 nike

我这里有一个 RDF 文件:rdf.rdf其中有 35696 条记录。我正在尝试使用 Jena 处理它:

./bin/sparql --data=/tmp/rdf.rdf --query=./basic.query

但我得到:

21:25:27 ERROR riot                 :: Element type "j.0:target" must be followed by either attribute specifications, ">" or "/>".
Failed to load data

我相信这个问题是一个特定的记录,但我不知道是哪一个,有没有人有办法检查这个或产生问题行号的命令?

最佳答案

问题是数据不是 RDF/XML(甚至不是 XML)

输入的最大问题是它不是合法的 RDF/XML,甚至不是合法的 XML。有许多行包含格式错误的字符串,例如

$ grep '""' rdf.rdf
<j.0:target rdf:resource="urn:evitakarina""/>
<j.0:target rdf:resource="urn:MiaWaluyo""/>
<j.0:target rdf:resource="urn:AnggaMOB""/>

实体也存在一些问题,或者更确切地说,& 符号出现的地方不是实体。例如:

$ grep "&" rdf-without-quotes.rdf 
<j.0:target rdf:resource="urn:HERUWA--&gty"/>
<j.0:target rdf:resource="urn:PiniiPin&andreasbimoo"/>

如果你用 & 替换它们中的每一个,你会走得更远(尽管也许 > 应该是 >?),但仍然存在问题。在那之后,您可能会追踪到:

<j.0:target rdf:resource="urn:cordeliabuvaledesilvaa"jajajajajajajajaja"/>

不幸的是,我不知道有什么方法可以更好地获取有关行号的调试信息。由于这个(不完全是)RDF/XML 文档的结构如此规则,因此将它切成两半来缩小问题范围并不难,而且根据经验,这些事情通常是由一些坏性格引起的它不应该在的地方,这就是我一直在寻找(并找到)的地方。

生成更好的数据

如果您对数据有任何控制权(例如,如果您正在生成数据),我强烈建议您考虑使用 RDF API(例如,Jena)生成数据,以从任何数据源生成 RDF 数据原始输入数据,而不是将其混搭到一些基于文本的模板中。这可能会给你最好的输出。否则,您只需要对必须是 URL 的 URL 编码事物更加小心。大多数语言都包含一些用于处理该问题的标准库功能。

使用 Jena 做到这一点并不难。我建议尝试重建一个包含有问题的数据的最小模型。这是从您的数据中提取的一个小样本(但它是一个完整的 RDF/XML 文档(如果不是因为上面讨论的问题,它可能是)):

<?xml version="1.0" encoding="iso-8859-1" ?>
<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:j.0="urn:" >
<rdf:Description rdf:about="urn:communication243">
<j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120219</j.0:hour>
<j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012021910</j.0:minute>
<j.0:source rdf:resource="urn:wirojericko"/>
<j.0:target rdf:resource="urn:evitakarina""/>
</rdf:Description>
<rdf:Description rdf:about="urn:communication4574">
<j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120304</j.0:hour>
<j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012030406</j.0:minute>
<j.0:source rdf:resource="urn:renomaximuz"/>
<j.0:target rdf:resource="urn:HERUWA--&gty"/>
</rdf:Description>
</rdf:RDF>

我们可以通过以下代码使用 Jena 重新创建它。我已将这些值存储在 Object[][] 数组中,这样我们甚至可以模拟迭代原始输入数据。

import com.hp.hpl.jena.rdf.model.Model;
import com.hp.hpl.jena.rdf.model.ModelFactory;
import com.hp.hpl.jena.rdf.model.Property;
import com.hp.hpl.jena.rdf.model.Resource;

public class RecreateRDFExample {
public static void main(String[] args) {
final String NS = "urn:";
final Model model = ModelFactory.createDefaultModel();
final Object[][] data = {
{ 243, 20120219L, 2012021910L, "wirojericko", "evitakarina\"" },
{ 4574, 20120304L, 2012030406L, "renomaximuz", "HERUWA--&gty" }
};

final Property hour = model.createProperty( NS+"hour" );
final Property minute = model.createProperty( NS+"minute" );
final Property source = model.createProperty( NS+"source" );
final Property target = model.createProperty( NS+"target" );

for ( Object[] communication : data ) {
final Resource com = model.createResource( NS + "communication" + communication[0] );
com.addLiteral( hour, (long) communication[1] );
com.addLiteral( minute, (long) communication[2] );
com.addProperty( source, model.createResource( NS+communication[3] ));
com.addProperty( target, model.createResource( NS+communication[4] ));
}

model.write( System.out );
}
}

输出正是我们所希望的; IRI 已使用 "& 进行适当编码。

<rdf:RDF
xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:j.0="urn:" >
<rdf:Description rdf:about="urn:communication243">
<j.0:target rdf:resource="urn:evitakarina&quot;"/>
<j.0:source rdf:resource="urn:wirojericko"/>
<j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012021910</j.0:minute>
<j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120219</j.0:hour>
</rdf:Description>
<rdf:Description rdf:about="urn:communication4574">
<j.0:target rdf:resource="urn:HERUWA--&amp;gty"/>
<j.0:source rdf:resource="urn:renomaximuz"/>
<j.0:minute rdf:datatype="http://www.w3.org/2001/XMLSchema#long">2012030406</j.0:minute>
<j.0:hour rdf:datatype="http://www.w3.org/2001/XMLSchema#long">20120304</j.0:hour>
</rdf:Description>
</rdf:RDF>

关于rdf - Apache Jena 获取 "ERROR riot"处理元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20916200/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com