gpt4 book ai didi

c++ - 解析 XML 样式表处理指令

转载 作者:行者123 更新时间:2023-11-30 03:00:12 25 4
gpt4 key购买 nike

如何正确解析 XML 样式表处理指令?据我了解,XML 处理指令的值例如:

<?xml-stylesheet type="application/xsl" src="style.xsl" version="1.0"?>

是:

type="application/xsl" src="style.xsl" version="1.0"

如何将其解析为键值对列表?我四处搜索了一些如何执行此操作的示例,但一直未能找到任何示例。

这里的关键词是正确地...我不想只写一个在某些情况下可能会失败的简单正则表达式,我想确保我完全按照你的方式解析它已正确解析 XML 样式表指令。

最佳答案

XML 样式表 PI 的语法在 the spec 中给出。 ,所以如果你想做对,只需为该语法编写一个解析器即可。由于该语言实际上是正则的,因此可以使用正则表达式对其进行正确解析。最大的复杂性可能是,由于 XML 规范不要求在处理指令中识别字符引用或预定义实体引用,因此您可能需要自己处理这些内容。

至于具体应该如何做,这取决于您在什么环境中工作。例如,这里有一个 XQuery 函数,它完成这项工作并返回一个从伪属性创建的元素列表处理指令;如果 PI 与规范中给出的语法不匹配,它会返回一个名为 error 的元素。

declare function bmt:parse-sspi($s as xs:string) 
as element()* {

if (bmt:check-sspi($s)) then
let $s1 := substring-after($s,"<?xml-stylesheet"),
$s2 := substring-before($s1,"?>")
return bmt:parse-pseudoatts($s2)
else <error/>
};

此函数将解析伪属性的实际工作交给一个单独的递归函数,该函数在每次调用时解析一个属性值对:

declare function bmt:parse-pseudoatts($s as xs:string) 
as element()* {

(: We know that $s is a syntactically legal sequence
of pseudo-attribute value specifications. So we
can get by with simpler patterns than we would
otherwise need.
:)

let $s1 := replace($s,"^\s+","")
return if ($s1 = "") then () else
let $s2 := substring-before($s, '='),
$Name := normalize-space($s2),
$s3 := substring-after($s, '='),
$s4 := replace($s3,"^\s+",""),
$Val := if (starts-with($s4,'"')) then
substring-before(
substring($s4,2),
'"')
else if (starts-with($s4,"'")) then
substring-before(
substring($s4,2),
"'")
else <ERROR/>,
$sRest := if (starts-with($s4,'"')) then
substring-after(
substring($s4,2),
'"')
else if (starts-with($s4,"'")) then
substring-after(
substring($s4,2),
"'")
else ""

return (element {$Name} { $Val },
bmt:parse-pseudoatts($sRest))
};

如评论所示(如您所见),这两者都受益于事先知道 PI 实际上是合法的。因此,我们可以通过从字符串中第一个“=”之前的任何内容中去除空格来解析伪属性名称,依此类推。

正确性的保证由一个单独的check-sspi 函数提供,它系统地构造一个正则表达式,以便于将函数与规范中的语法进行比较,以检查该功能是正确的。

declare function bmt:check-sspi($s as xs:string) 
as xs:boolean {

let $pio := "<\?",
$kw := "xml-stylesheet",
$pic := "\?>",
$S := "\s+",
$optS := "\s*",
$Name := "\i\c*",
$CharRef := "&amp;#[0-9]+;|&amp;#x[0-9a-fA-F]+;",
$PredefinedEntityRef := concat("&amp;amp;",
"|&amp;lt;",
"|&amp;gt;",
"|&amp;quot;",
"|&amp;apos;"),
$dq := '"',
$sq := "'",
$dqstring := concat($dq,
"(",
"[^", $dq, "&lt;&amp;]",
"|",
"$CharRef",
"|",
"$PredefinedEntityRef",
")*",
$dq),
$sqstring := concat($sq,
"(",
"[^",$sq,"&lt;&amp;]",
"|",
"$CharRef",
"|",
"$PredefinedEntityRef",
")*",
$sq),
$psAttVal := concat("(",$dqstring,"|",$sqstring,")"),
$pseudoAtt := concat("(",
$Name,
$optS, "=", $optS,
$psAttVal,
")"),
$sspi := concat($pio,
$kw,
"(", $S, $pseudoAtt, ")*",
$optS,
$pic),
$sspi2 := concat("^", $sspi, "$")
return if (matches($s,$sspi2)) then true() else false()
};

对于测试字符串

<?xml-stylesheet  foo="bar"
href="http://www.w3.org/2008/09/xsd.xsl"
type='text/xsl'
?>

顶级parse-sspi函数返回

<foo>bar</foo>
<href>http://www.w3.org/2008/09/xsd.xsl</href>
<type>text/xsl</type>

如果我们只使用单个 Perl 风格的正则表达式进行解析,这些函数可能会更紧凑一些。有些人可能会发现这种紧凑的形式更自然、更容易理解,有些人会更喜欢像这里给出的那样不那么简洁的表述。

关于c++ - 解析 XML 样式表处理指令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12344341/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com