gpt4 book ai didi

Java SaxParser 在 & 之后修剪字符串

转载 作者:数据小太阳 更新时间:2023-10-29 02:08:17 25 4
gpt4 key购买 nike

我想解析这个 xml:

<sparql xmlns="http://www.w3.org/2005/sparql-results#" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/sw/DataAccess/rf1/result2.xsd">
<head>
<variable name="uri"/>
<variable name="id"/>
<variable name="label"/>
</head>
<results distinct="false" ordered="true">
<result>
<binding name="uri"><uri>http://dbpedia.org/resource/Davis_&amp;_Weight_Motorsports</uri></binding>
<binding name="label"><literal xml:lang="en">Davis &amp; Weight Motorsports</literal></binding>
<binding name="id"><literal datatype="http://www.w3.org/2001/XMLSchema#integer">5918444</literal></binding>
<binding name="label"><literal xml:lang="en">Davis &amp; Weight Motorsports</literal></binding>
</result></results></sparql>

这是我的处理程序:

public class DBpediaLookupClient extends DefaultHandler{

public DBpediaLookupClient(String query) throws Exception {
this.query = query;
HttpMethod method = new GetMethod("some_uri&query=" + query2);
try {
client.executeMethod(method);
InputStream ins = method.getResponseBodyAsStream();
SAXParserFactory factory = SAXParserFactory.newInstance();
SAXParser sax = factory.newSAXParser();
sax.parse(ins, this);


} catch (HttpException he) {
System.err.println("Http error connecting to lookup.dbpedia.org");
} catch (IOException ioe) {
System.err.println("Unable to connect to lookup.dbpedia.org");
}
method.releaseConnection();
}

public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
if (qName.equalsIgnoreCase("td") || qName.equalsIgnoreCase("uri") || qName.equalsIgnoreCase("literal")) {
tempBinding = new HashMap<String, String>();
}
lastElementName = qName;
}

public void endElement(String uri, String localName, String qName) throws SAXException {
if (qName.equalsIgnoreCase("uri") || qName.equalsIgnoreCase("literal") || qName.equalsIgnoreCase("td")) {
if (!variableBindings.contains(tempBinding))
variableBindings.add(tempBinding);
}
}

public void characters(char[] ch, int start, int length) throws SAXException {
String s = new String(ch, start, length).trim();
if (s.length() > 0) {
if ("td".equals(lastElementName)) {
if (tempBinding.get("td") == null) {
tempBinding.put("td", s);
}
}

else if ("uri".equals(lastElementName)) {
if (tempBinding.get("uri") == null) {
tempBinding.put("uri", s);
}
}
else if ("literal".equals(lastElementName)) {
if (tempBinding.get("literal") == null) {
tempBinding.put("literal", s);
}
}
//if ("URI".equals(lastElementName)) tempBinding.put("URI", s);
if ("URI".equals(lastElementName) && s.indexOf("Category")==-1 && tempBinding.get("URI") == null) {
tempBinding.put("URI", s);
}
if ("Label".equals(lastElementName)) tempBinding.put("Label", s);
}
}
}

这是结果:

key: uri, value: http://dbpedia.org/resource/Davis_
key: literal, value: 5918444
key: literal, valueDavis

如您所见,它与 & 分开

当我跟踪 character() 函数时,我发现长度是错误的,它是 & 而不是我想要作为结果得到的字符串的末尾。

我复制了这部分代码,我对解析器和处理程序了解不多,我只是从跟踪代码中得到了很多,而且我搜索的任何地方都说应该有 & 而不是 xml 文档中的 &,这里就是这种情况。

在这段代码中我应该怎么做才能使完整的字符串不被 & 字符修剪?

最佳答案

这是使用 SAX 时每个人都必须学习的一课:解析器可以分解文本节点并在对 characters() 的多次调用中报告内容,而重新组装它是应用程序的工作(例如,通过使用 StringBuilder)。解析器在任何地方中断文本是很常见的,否则它必须在内存中分流字符,例如实体引用发生的位置或它到达 I/O 缓冲区边界的位置。

以这种方式设计是为了通过最小化文本复制使 SAX 解析器 super 高效,但我怀疑这没有真正的好处,因为文本复制只需要由应用程序来完成。

不要像@DavidWallace 建议的那样尝试和猜测解析器。允许解析器以任何它喜欢的方式分解文本,您的应用程序应该满足这种情况。

关于Java SaxParser 在 & 之后修剪字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27539425/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com