r - 从 XML 包中保存 htmlParse 对象-6ren

r - 从 XML 包中保存 htmlParse 对象

转载作者：行者123 更新时间：2023-12-01 11:49:44

25

4

我想保存作为 htmlParse 命令结果的对象。这是一些代码来说明我的问题。简单地说，我希望能够将解析后的 HTML 页面保存到一个对象中，并将其加载到 future 的 session 中。

library(XML)
PATH = "/colleges/Bentley-University"
URL <- paste("http://www.cappex.com", PATH, sep="")
doc <- htmlParse(URL)
mylist <- list(doc)
mylist[[1]]
save(mylist, file="mylist.Rdata")
rm(list=ls())
load("mylist.Rdata")

但是，当我试图记忆我的列表的内容时，这是我得到的错误:

> mylist[[1]]
Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") :
  cannot open file '/var/folders/hv/wtvckymn0230hpsdwylmtf0r0000gn/T//Rtmp8Mrpev/fileed256550e50': No such file or directory

最佳答案

doc 无法保存，因为它是指向“C 级节点”的指针。把它放在一个列表中并不能改变这个事实。您可以先将 XML 树的表示形式写入字符串，然后保存。在你可以恢复文本之后。

library(XML)
PATH = "/colleges/Bentley-University"
URL <- paste("http://www.cappex.com", PATH, sep="")
doc <- htmlParse(URL)
saveXML(doc, file="ex.txt")
rm(list=ls())

# recover
doc<-htmlParse('ex.txt')

关于r - 从 XML 包中保存 htmlParse 对象，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12487682/

25

4

0

文章推荐： java - 在 Android 上打开/关闭相机手电筒

文章推荐： java - 使用 Jradio 按钮显示集合中的项目

文章推荐： r - 如何在每个月的最后一天对数据框进行子集化

xml - htmlParse 无法加载外部实体
我正在尝试使用 R 和 XML 包加载一些公开可用的 NHS 数据，但我不断收到以下错误消息: Error: failed to load external entity "http://www.en
r - 从 XML 包中保存 htmlParse 对象
我想保存作为 htmlParse 命令结果的对象。这是一些代码来说明我的问题。简单地说，我希望能够将解析后的 HTML 页面保存到一个对象中，并将其加载到 future 的 session 中。
python - htmlparse 无法清除 <style>
我的 html 解析器有问题。我将充满 html 代码的电子邮件转换为漂亮的干净文本，除了“ content ”部分，它完全忽略了它，我不知道我做错了什么: # Remove any HTML
r - 处理 htmlParse 错误(无法加载 HTTP 资源)
我正在尝试网页抓取页面。但是，有时我的循环不起作用，因为解析器“无法加载 HTTP 资源”。问题是页面没有在我的浏览器中加载，所以这不是代码的问题。但是，在为我发现错误的每个页面创建异常后必须重新启
memory - R XML 包中的 htmlParse() 段错误错误 : 'memory not mapped'
我正在使用 R 2.11.1 和 XML 包 3.1-0，我正在查看 R2GoogleMaps 中的一个示例当我遇到段错误时。 #library(RJSONIO) library(R2GoogleMa
xml - rvest 中的 html 与 XML 中的 htmlParse
如下代码所示，rvest包中的html使用了XML包中的htmlParse。 . html function (x, ..., encoding = NULL) { parse(x, XML:
python - 使用 htmlparse 替换 html 文件中的图像和 css 源 url(python)
我正在尝试编写一个脚本来下载网页，包括所有图像和样式表 - 即本地托管版本看起来与原始版本相同。最初我只是下载图像，但现在我意识到我必须(当然)编辑 html 源，以便 img src 实际上指向本
html - 如何使用 htmlParse 和 xpathSApply 在 html 中的 <meta name...> 标签中获取信息
我有一堆网页，我想提取它们的发布日期。对于某些网页，日期位于“abbr”标签中(例如:abbr class=\"published\"title=\"2012-03-14T07:13:39+00:00

首页

博学

6Ren·AI

商城

r - 从 XML 包中保存 htmlParse 对象