gpt4 book ai didi

xml - 将 XMLNodeSet 转换为格式良好的 XML 文档

转载 作者:数据小太阳 更新时间:2023-10-29 02:34:12 26 4
gpt4 key购买 nike

我正在尝试使用 R 的 XML 库从网站中提取一些信息。

我已经下载了一个网页。然后,我使用 Xpath 表达式从页面中提取一些相关元素。通常这会产生大约 50 个相关元素。然后我想将这些相关项(XMLNodeSet)保存为 XML 文档(这样我就可以在 XML 编辑器中分析结果)。

但是。之前,我可以保存 XMLNodeSet,我需要在使用 XML::saveXML() 函数之前将它们转换为格式良好的 xml 文档。

有没有人知道如何使用 R 的 XML 包来做到这一点。以下是一段代码:

download.file("https://www.holidayhouses.co.nz/Browse/List.aspx?page=37", "data.html")
doc <- htmlParse("data.html")
# set up x-path
str_x_path_lccg <- "//div[@class = 'ListCard-content group']"
# extract relevant nodes
xml_relevant_nodes <- XML::getNodeSet(doc, str_x_path_lccg)
# need to convert xml_relevant_nodes into a well-formed xml document in order to save it
# therefore the following fails
XML::saveXML(xml_relevant_nodes, "test.xml")

任何想法...?

最佳答案

自问这个问题以来,我对 R 的 XML 包有了更多的了解。这是最初提出的问题的答案:

download.file("https://www.holidayhouses.co.nz/Browse/List.aspx?page=37", "data.html")
doc <- htmlParse("data.html")
# set up x-path
str_x_path_lccg <- "//div[@class = 'ListCard-content group']"
# extract relevant nodes
xml_relevant_nodes <- XML::getNodeSet(doc, str_x_path_lccg)
# need to convert xml_relevant_nodes into a well-formed xml document in order to save it
# firstly, create a single node which will be the parent
xmlDoc = newXMLNode("top", "topNode", namespace = c(tfm = "http://www.thefactmachine.com"))
# now we can add the node set to the parent node
addChildren(xmlDoc, kids = xml_relevant_nodes)
XML::saveXML(xmlDoc, "test.xml")

关于xml - 将 XMLNodeSet 转换为格式良好的 XML 文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35762465/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com