html - NSXMLDocumentTidyHTML 没有整理一些 XHTML 验证错误-6ren

html - NSXMLDocumentTidyHTML 没有整理一些 XHTML 验证错误

转载作者：行者123 更新时间：2023-11-27 22:52:20

25

4

我想从网页列表中抓取文本。我做了一些试验，发现满足我需求的最佳方法是通过 WebKit。

获取页面源后，我想使用 the technique in this comment. 去除所有 HTML 标签。

这是我的代码:

- (void)webView:(WebView *)sender didFinishLoadForFrame:(WebFrame *)frame {
    if(frame == [sender mainFrame]) {
        NSString *content = [[[[sender mainFrame] dataSource] representation] documentSource];
        NSXMLDocument *theDocument = [[NSXMLDocument alloc] initWithXMLString:content options:NSXMLDocumentTidyHTML error:&theError];
        NSString *theXSLTString = @"<?xml version='1.0' encoding='utf-8'?>\n<xsl:stylesheet version='1.0' xmlns:xsl='http://www.w3.org/1999/XSL/Transform' xmlns:xhtml='http://www.w3.org/1999/xhtml'>\n<xsl:output method='text'/>\n<xsl:template match='xhtml:head'></xsl:template>\n<xsl:template match='xhtml:script'></xsl:template>\n</xsl:stylesheet>";
        NSData *theData = [theDocument objectByApplyingXSLTString:theXSLTString arguments:nil error:&theError];
        NSString *theString = [[NSString alloc] initWithData:theData encoding:NSUTF8StringEncoding];
    }
}

这在大多数页面上都能正常工作。但是，如果一个页面没有正确验证为 XHTML，我有时会从我的 initWithXMLString: 方法中得到一个错误。

这很公平 - 我要求它整理 XHTML，所以我希望它报告遇到的问题。但如果验证出现问题，它会返回 nil 和一个错误，而不是实际整理 XHTML。

导致问题的一个特定页面是 the Ruby class documentation.

我发现优秀的第三方HTML tidy应用程序可以很好地清理这个 XHTML，但我希望 NSXMLDocumentTidyHTML 能够只在 cellpadding 值周围添加一些引号。这是一个相当基本的清理操作。而且我不想在我的代码库中添加另一个依赖项。

Cocoa 清理 XHTML 的方式是否遗漏了什么？还是我只需要硬着头皮在我的代码中改用 HTML Tidy？

最佳答案

XHTML 文档被视为 XML，因此使用 NSXMLDocumentTidyXML 标志可能会更好。

关于html - NSXMLDocumentTidyHTML 没有整理一些 XHTML 验证错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1032241/

25

4

0

文章推荐： html - 粘性头部边框消失

文章推荐： c++ - 为什么以及何时执行重载构造函数？

文章推荐： c++ - 为什么 c++ 在以下情况下生成构造函数？

文章推荐： javascript - 使用 jQuery 的 D3.js 图的节点搜索栏

xhtml - XHTML 的制表符实体？
有谁知道 xhtml 中选项卡的字符实体是什么？ (嗯，如果有的话)... 最佳答案 (X)HTML 对制表符没有特殊支持:它们只是另一个空白字符，无论您是否对它们进行转义。关于xhtml - XH
xhtml - XHTML 中的自定义属性是否正常
我了解根据 HTML 规范，向元素添加自定义属性是无效的。这对 XHTML 也无效吗？我认为 XHTML 是 XML 家族的一部分，因此是可扩展的。作为可扩展性，使用自定义属性不是可以吗？戴夫最
xhtml - XHTML 中的空白处理
有没有关于如何正确处理 XHTML (1.0 Transitional) 中的空格的信息？似乎 XHTML 不使用标准的 XML 空白处理。编辑:梅比我对我到底在寻找什么有点不准确。我对元素如何呈现
xhtml - 浏览器将如何区分 XHTML 1.0 和 XHTML 5？
据我了解，XHTML (1.0, 1.1) 和 XHTML 5 都不需要 DTD。如果这是真的，浏览器将如何区分两者？我只能假设当浏览器供应商支持 (X)HTML 5 时，所有 XHTML 都将按照
java - JSF/XHTML - 一个包含相同 xhtml 页面两次的 xhtml 页面
我得到了一个带有 session 范围 bean 的 xhtml 页面。现在我想在另一个 html 页面中两次使用此页面，一次在屏幕左侧，一次在屏幕右侧。如果我包含它，它指的是同一个 bean，我怎样
xhtml - XHTML 1.0 Transitional vs XHTML 1.0严格？
就SEO而言，从客户端角度来看，我应该使用XHTML 1.0 Transitional还是XHTML 1.0 Strict？为什么有些人仍然使用Transitional？如果我们使用“严格过渡”，
xhtml - 在 XHTML 中标记推荐书的最佳方法是什么？
我以前只用 p和 span元素...但我一直在插入使用正确的元素，这是我之前没有真正考虑过关于推荐的事情。这是我想到的... I love your products! Jim Testimo
xhtml - 符合 XHTML 的意义何在？
所有现代浏览器都理解 HTML，所以除了在键盘最右侧编写更多字符之外，兼容 XHTML 的意义何在。最佳答案没有一点我能想到的。 W3C 已经取消了 XHTML 2.0，尽管应该有一个 XHTML
xhtml - 如何将网站图标添加到 xhtml 文档
我制作了一个 Windows 图标 (*.ico) 并将其命名为 favicon，它是 16 x 16 和 16 种颜色...我已将其包含在链接标签中但是加载不正确 how do I add a f
xhtml - Scala xhtml 属性因问号而中断
我有一个问题: 在 Lift 网络框架 (Scala) 版本中。我得到: Message: java.util.NoSuchElementException scala.RandomAccessS
xhtml - 社交分享按钮使 XHTML 无效
我已经编写了有效的 XHTML 1.0 Transitional 代码。我想添加社交分享按钮(twitter、facebook 和 google+)，但所有这些按钮都使我的代码无效。有什么解决办法吗？
xhtml - 如何在 XHTML 中标记科学名称？
我想知道在 XHTML 中标记科学名称的最佳方法。 This answer说我应该使用元素，我不太赞成，当然，除非它是正确的元素。我可以使用，但鉴于 HTML 的第一个用途是标记科学文档，我想
xhtml - HTML5 & XHTML 角色属性问题
角色属性是否有定义的值，如果有，您能说出它们是什么吗？或者我可以为角色属性创建自己的值吗？它们区分大小写吗？它们必须是字母吗？可以有数字吗？或者您可以同时拥有定义的值和用户创建的值。最佳答案快
xhtml - XHTML 和 DHTML 之间有什么区别？
分别阅读两者，看起来都一样，html+xml+javascript。那和有什么区别？有没有？最佳答案 XHTML是 w3c标准，一种也严格符合 XML 的 HTML 形式。 DHTML是一个很大程
xhtml - XHTML 的 XSL 转换中的命名空间问题
在使用 XSL 将 XHTML 转换为 XHTML 时，我遇到了 namespace 问题。考虑作为示例输入: Test Remove this 然后
xhtml - 使用 Text.XHtml 嵌套
我有以下代码使用 Text.XHtml.Strict 库在 Haskell 中生成一个包含一系列带有 id 和类的 div 的空白 html 页面: module Main where import
xhtml - IE 的 XHTML 兼容性
我对 IE 的 XHTML 兼容性进行了激烈的辩论。唯一的问题是，我不确定这家伙是不是在挑衅。从本质上讲，他声称 IE 完全不兼容 XHTML，并且无论使用何种浏览器，具有定义的 XHTML 文档类
xhtml - google plus 不显示来自 xhtml 文档的元信息片段
我已经为此奋斗了一段时间，但我什至无法弄清楚为什么它不起作用。以这个简单的 XHTML 测试源为例: foobar
xhtml - 为什么我的文档没有验证为 XHTML 1.1 STRICT？
虽然不推荐使用 target="_blank"，但为什么 W3C 验证器没有给出关于此的错误？您可以在 validator 中粘贴并检查此代码: Untitled Document Li
xhtml - XHTML anchor 链接，带有背景图片，无文字
是否有可能使 anchor 链接内部没有具有背景图像和固定尺寸的文本，并且仍然适合SEO？ CSS示例: a{display:block;width:50px;height:20px;backgrou

首页

博学

6Ren·AI

商城

html - NSXMLDocumentTidyHTML 没有整理一些 XHTML 验证错误