VBA:对 DOMDocument 的 Html 响应-6ren

VBA:对 DOMDocument 的 Html 响应

转载作者：行者123 更新时间：2023-12-01 22:35:48

25

4

我正在尝试自动解析一个网站(例如 http://www.delhaizedirect.be/nl/Search/Duvel 并获取 VBA 中列表中第一项的价格。因此，我得到了 HTML，效果很好。但是当我解析将 HTML 转换为 DOMDocument 并应用 XPath 查询，我没有得到任何结果。

这是我正在使用的代码:

Public Function zoekDelhaizePrijs(Artikel As String)

Dim URL As String
URL = "http://www.delhaizedirect.be/nl/Search/" + Artikel

Dim website As Object
Set website = CreateObject("MSXML2.ServerXMLHTTP.6.0")

Call website.Open("GET", URL, False)
Call website.Send("")

Dim XPathQuery As String
XPathQuery = "/html/body/div[1]/div[3]/div[1]/div[1]/div[3]/ul/div[1]/div/div[2]/p[1]"

Dim dom As DOMDocument60
Set dom = New DOMDocument60
dom.async = False

dom.validateOnParse = False

'Debug.Print website.responseText

dom.LoadXML website.responseText
dom.setProperty "SelectionLanguage", "XPath"

Dim node As IXMLDOMNodeList
Set node = dom.SelectNodes(XPathQuery)

Dim title As IXMLDOMNode

For Each title In node
    Debug.Print title.Text
Next

End Function

有人知道吗？

提前致谢，汤姆

最佳答案

尽管页面顶部的 DOCTYPE 将其声明为“XHTML 1.0 Transitional”，但为“Duvel”查询返回的页面甚至不是格式良好的 XML。因此，它无法解析为 DOMDocument60 对象，因此不会返回任何节点。即使您设置了 validateOnParse=False ，这并没有消除文档必须是格式良好的 XML 的要求。

您可以将网站的响应加载到字符串中，然后手动将其更正为格式正确的 XML，然后再将其加载到 DOMDocument60 中。这可能需要一些时间，因为您需要解决问题，运行函数，然后检查 dom.parseError 的属性找到下一个问题。

XHTML 文档的问题包括:

&未替换为 & 的字符实体 - 例如value="/nl/Search/Duvel?NB_REPLY=20&brand=Delhaize&page=1"而不是value="/nl/Search/Duvel?NB_REPLY=20&brand=Delhaize&page=1"
没有值的属性 - 例如<option selected value="/nl/Search/Duvel?NB_REPLY=20&page=1">而不是<option selected="selected" value="/nl/Search/Duvel?NB_REPLY=20&page=1">
标签未关闭 - 例如<div></div> (缺少  )

还有一些特定的 MSXML2 问题。默认情况下，DOMDocument60 中禁止 DTD，因此您需要 dom.setProperty "ProhibitDTD", False在尝试加载 XML 之前。

您的 XPath 查询也可能会遇到 MSXML2 的默认 namespace 问题 - 请参阅 here (该链接指的是 MXSML 4.0，但问题在 MSXML 6.0 中仍然存在)。由于页面有一个默认的命名空间xmlns="http://www.w3.org/1999/xhtml" ，您需要:

声明与该命名空间相对应的命名空间前缀 dom.setProperty "SelectionNamespaces", "xmlns:r='http://www.w3.org/1999/xhtml'"和
在您的 XPath 查询中使用它 XPathQuery = "/r:html/r:body/r:div[1]/r:div[3]/r:div[1]/r:div[1]/r:div[3]/r:ul/r:div[1]/r:div/r:div[2]/r:p[1]"

或者，您可以尝试将网站的响应加载到 HTMLDocument 中，并使用类似 getElementsByClassName 的方法。来定位所需的数据。在本例中，不要求文档是格式良好的 XML

这些是我需要进行的替换，以使 Duvel 页面正常工作。该网站上的其他页面可能需要一组不同的替换。我不会说这是最佳实践，但它适用于这一特定页面。标准实体(加上   )被临时重命名以允许不正确的 &文档中要替换的字符。  被替换为等价的数字:

Dim webResponse As String
webResponse = website.responseText
webResponse = Replace(webResponse, "&nbsp;", "^nbsp;")
webResponse = Replace(webResponse, "&amp;", "^amp;")
webResponse = Replace(webResponse, "&lt;", "^lt;")
webResponse = Replace(webResponse, "&gt;", "^gt;")
webResponse = Replace(webResponse, "&quot;", "^quot;")
webResponse = Replace(webResponse, "&apos;", "^apos;")

webResponse = Replace(webResponse, "&", "&amp;")

webResponse = Replace(webResponse, "^nbsp;", "&#160;")
webResponse = Replace(webResponse, "^amp;", "&amp;")
webResponse = Replace(webResponse, "^lt;", "&lt;")
webResponse = Replace(webResponse, "^gt;", "&gt;")
webResponse = Replace(webResponse, "^quot;", "&quot;")
webResponse = Replace(webResponse, "^apos;", "&apos;")

webResponse = Replace(webResponse, "<option selected ", "<option selected=" & Chr$(34) & "selected" & Chr$(34) & " ")
webResponse = Replace(webResponse, " style=>", " style=" & Chr$(34) & Chr$(34) & ">")
webResponse = Replace(webResponse, "]]&gt;", "]]>")
webResponse = Replace(webResponse, "<span>prijs</span></span>", "<span>prijs</span></span></p>")

关于VBA:对 DOMDocument 的 Html 响应，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15745463/

25

4

0

文章推荐： Django WSGI 应用程序 SegFault

文章推荐： sql - 如何对数据集进行密集排名

文章推荐： python - 更改 databricks 笔记本的默认语言

文章推荐： .net - 通过 .NET 中的 Citrix session 获取本地计算机名称

php - Ajax 响应 HTML 响应
我正在尝试检查 Entry 中是否存在重复项，并使用内联消息提醒用户该数字存在。 $(document).ready(function(){ $("#con1").blur(function(
python - 如何在基于类的 View 中返回 JSON 响应，而不是 HTTP 响应
我有一个基于类的 View 。我在引导模式上使用 Ajax。为了避免页面刷新，我想使用此类基于 View 返回 JSON 响应而不是 HTTP 响应，但我只看到了如何为基于函数的 View 返回 JS
C# Hue Bridge PUT 发送 OK 响应。无 API 响应
关闭。这个问题是not reproducible or was caused by typos .它目前不接受答案。这个问题是由于错别字或无法再重现的问题引起的。虽然类似的问题可能是on-topi
http-status-codes - 根除 401 "Unauthorised"响应，然后是 200 "Ok"响应
我有一个大型内部企业基于 Web 的应用程序在 IIS6 上运行 ASP.NET 3.5，生成 401 个“未经授权”响应，然后是 200 个“Ok”响应(如 Fiddler 所述)。我知道为什么会发
javascript - Express 不会从一个 Controller 返回 HTTP 响应，但在其他 Controller 中会返回 HTTP 响应
感谢您研究我的问题。我有一个node/express服务器，配置了一个server.js文件，它调用urls.js，而urls.js又调用 Controller 来处理http请求，所有这些都配置相
node.js - Curl 正在获取 POST 响应，但 Node.js 未获取 POST 响应
当我使用以下命令时，我得到正确的 JSON 响应: $ curl --data "regno=&dob=&mobile=" https://vitacademics-rel.herokuapp.co
RESTful POST 响应
我有一个非常简单的 RESTful 服务，它通过 POST 接收一些表单数据，其目的是在云存储(Amazon S3、Azure Blob 存储等)中简单地保留文本主体(具有唯一 ID)作为一个文件..
sockets - UDP 响应
UDP 不发送任何 ack，但它会发送任何响应吗？我已经设置了客户端服务器UDP程序。如果我让客户端向不存在的服务器发送数据，那么客户端会收到任何响应吗？我的假设是；客户端 --> 广播服务器地
scala - 如何在电梯中记录请求/响应
我有一个电梯项目，其中有一个扩展 RestHelper 的类，看起来像这样 serve{ "api" / "mystuff" prefix { case a
Kong 自定义错误消息/响应
我们正在寻求覆盖 Kong 错误响应结构并编写自定义消息(即用我们的自定义消息替换“超出 API 速率限制”、“无效的身份验证凭据”等)。我们要找的错误响应结构(代码是自定义的内部错误代码，与HTT
iphone - 响应 EKEventStoreChangedNotification
我正在尝试监听 EKEventStoreChangedNotification 以检查当我的应用程序处于后台时日历是否已更改。我在 View Controller 的 initWithNibMeth
javascript - 响应.写入divIDE
我了解 javascript，并且正在学习 ASP.NET C# 我想要做什么(完成的是javascript): document.getElementById('divID-1'
java - 在Java中的BrowserMob中仅获取POST请求/响应
是否可以过滤所有 har 对象并仅获取 POST 请求/响应？也许在初始化 BrowserMobProxyServer 期间是这样做的方法？我需要将 har 对象保存到文件中并上传到 har 查看器。
php - Symfony2 响应
我正在尝试向 Oauth 的 API 发送响应。遗憾的是，Symfony2 文档在解释 $response->headers->set(...); 的所有不同部分方面做得很差。这是我的 OauthC
python 响应 - 并非所有请求都已执行
我正在尝试测试用例来模拟 api 调用，并使用 python 响应来模拟 api 调用。下面是我的模拟， with responses.RequestsMock() as rsps: url
haskell - 我将如何以可扩展的方式抽象命令/响应？
在尝试在 Haskell 中进行一些领域驱动设计时，我发现自己遇到了这个问题: data FetchAccessories = FetchAccessories data AccessoriesRes
java - 如何在项目reactor中设置阻塞异步请求/响应？
我正在与 ANT+ USB 棒连接，并用项目 react 器替换我自己天真的“MessageBus”，因为它看起来非常合适。 USB接口(interface)本质上是异步的(单独的输入/输出管道)，我
ios - 如何使用AFHTTPSessionManager记录每个请求/响应？
我正在将项目迁移到AFNetworking 2.0。使用AFNetworking 1.0时，我编写了代码来记录控制台中的每个请求/响应。这是代码: -(AFHTTPRequestOperation *
php - Ajax 响应
我有以下代码段。 ajaxRequest.onreadystatechange = function(){ if(ajaxRequest.readyState == 4){
来自帖子的 Jquery 响应
我有问题......我在 php 中有一个监听器脚本可以执行以下操作: if ($count != 1) {echo 'no';} else { echo "yes";} 因此它会回显"is"或“

首页

博学

6Ren·AI

商城

VBA:对 DOMDocument 的 Html 响应