- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我必须解析一个大的 HTML 文件,而我只对一小部分(表格)感兴趣。因此,我考虑使用 XSLT 以更简单的方式简化/转换 HTML,然后我可以轻松处理。
我遇到的问题是找不到我的 table 。所以我不知道是否可以使用 XSL 样式表解析 HTML。
顺便说一下,HTML 文件看起来是这样的(原理图,缺少标签):
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html id="ctl00_htmlDocumento" xmlns="http://www.w3.org/1999/xhtml" lang="es-ES" xml:lang="es-ES">
<div> some content </div>
<div class="NON_IMPORTANT"></div>
<div class="IMPORTANT_FATHER>
<div class="IMPORTANT">
<table>
HERE IS THE DATA IM LOOKING FOR
</table>
</div>
</div>
根据要求,这是我的xsl
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform" version="1.0">
<xsl:template match="tbody">
tbody found, lets process it
<xsl:for-each select="tr">
new tf found, lets process it
</xsl:for-each>
</xsl:template>
</xsl:stylesheet>
完整的 HTML 相当大,所以我不知道如何在这里展示它...我已经在 Oxygen 上测试了有效文档,它说它有效。
提前致谢。贡索
最佳答案
您没有在 match
属性中正确使用 XPath。您需要 xsl:stylesheet
元素中的 xmlns:xhtml="http://www.w3.org/1999/xhtml"
属性,然后您需要在您的 XPath 表达式中使用 xhtml:
前缀(您需要一个前缀;XPath 不遵守默认 namespace )。
在此之后,您仍然会遇到它也会处理其他所有内容的问题。我不知道是否有更好的解决方案,但我认为您需要明确处理指向 tbody
元素的路径,例如
<xsl:template match="xhtml:html">
<xsl:apply-templates select="xhtml:body"/>
</xsl:template>
对于 body
也是如此,直到你到达你的 tbody
匹配。
XPath 还支持比上面的特定子项更复杂的匹配。例如,匹配第三个子 div
标签可以用
<xsl:template match="xhtml:div[3]">
并将具有特定属性的元素与
匹配<xsl:template match="xhtml:div[@class='IMPORTANT']">
这里的 []
包含一个额外的条件,需要满足该条件才能将元素视为匹配项。普通数字意味着对匹配项进行索引并仅采用具有该索引的匹配项(索引从 1 开始),@
符号位于属性之前,但您可以在其中包含任意复杂的 XPath , 因此您几乎可以匹配您想要的任何子结构。
关于html - 我可以使用 XSLT 解析 HTML 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1639625/
我有一个 XSLT 样式表,如下所示: 我想使用第二个 XSLT 样式表来转换此样式表,以删除与 XQHead
我们有一个大型 xslt,可以呈现整个商店区域,包括产品、制造商,并根据价格和类别进行过滤。我使用 sitecore 作为 CMS,但遇到缓存问题。我有大约 9000 个项目,有些页面需要长达 20
我想根据条件的结果应用具有不同参数的模板。像这样: Attribute no. 1
我有一些看起来像这样的 XML Foo Details Bar Details Baz Details Foo Blah Bar BlahBlah Baz BlahBlahBl
我试图从这种输入出发: a b c d e f g ... 使用 XSLT 的 HTML 输出: one two a e b f
我想知道如何在 xslt 中找到特定节点的第一个子节点名称。 我有一个 xml: some text 我可以使用 body/
是否可以在 XSLT 中获取上个月的最后一天?我找到了这个函数:http://www.xsltfunctions.com/xsl/functx_last-day-of-month.html但我不确定如
具有特定节点的匹配元素存在问题。 xml: description of profile PhoneKeyPad S
我将一堆键值对作为参数传递给 XSL(日期 ->“1 月 20 日”,作者 ->“Dominic Rodger”,...)。 我正在解析的一些 XML 中引用了这些 - XML 如下所示: 目前,除
我找不到这个问题的确切答案,所以我希望有人能在这里帮助我。 我有一个字符串,我想在最后一个 '.' 之后获取子字符串。我正在使用 xslt 1.0。 这是怎么做的?这是我的代码。
我在尝试找出 xslt 上的 var 范围时遇到问题。我实际上想要做的是忽略具有重复“旅游代码”的“旅行”标签。 示例 XML: X1 Budapest X1 Budapest X
我有一些数据在 xslt 的 for-each 循环中输出。我对列表进行了分页,但没有对排序选择器进行分页。 用户应该能够对 2 个值(创建的数据和每个项目的数字字段)进行排序。默认的排序方法是创建日
我有一个奇怪的要求。 我在 xslt 中有一个包含月份的变量,带有它们的 id (1-12) 问题是我需要全部显示它们,但从一月(1)以外的月份开始。 目前我有以下 JAN
如何在 xslt 转换中模块化一组重复的输出?例如,我有如下内容(伪代码)。 并
我得到一个像这样的字符串。 13091711111100222222003333330044444400 字符串的模式是这样的 13 - 09 - 17 - 11111 - 100 - 22222 -
我是 XSLT 的新手,有一个一般性问题。为了区分具有不同属性的两个元素,最好(也是为了性能)使用 和 而不是 在一个模板中。据我所知,这就是 XSLT 中应该“思考”的方式。但在我看来,这有一个缺点
如何从“19650512-0065”到“196505120065”这样的字符串中删除连字符 使用这个模板:传递 theID =
是否有任何功能可以在左侧填充零? 我正在尝试做的要求是: 我们不知道即将到来的输入字符串长度。 如果小于 20,我们必须在左侧填充零。 如果输入字符串长度为 10,那么我们必须在左侧填充 10 个零。
身份模板如下所示: 是否选择多于 ,或者身份模板可能是这样的? 当我执行以下操作时,究竟选择了什么? 最佳答案
我正在尝试使用 XML 信息和 XSLT 模板创建超链接。这是 XML 源代码。 Among individual stocks, the top percentage gainers in the
我是一名优秀的程序员,十分优秀!