gpt4 book ai didi

html - 如何使用 htmlParse 和 xpathSApply 在 html 中的 <meta name...> 标签中获取信息

转载 作者:行者123 更新时间:2023-11-27 23:59:01 25 4
gpt4 key购买 nike

我有一堆网页,我想提取它们的发布日期。对于某些网页,日期位于“abbr”标签中(例如:abbr class=\"published\"title=\"2012-03-14T07:13:39+00:00\">2012-03-14, 7:13"),并且我能够使用以下方法获取日期:doc=htmlParse(theURL,asText=T)xpathSApply(doc,"//缩写",xmlValue)

但对于其他网页,日期在“mega”标签中,例如:
meta name=\"created\"content=\"2011-12-29T11:49:23+00:00\"
元名称=\"OriginalPublicationDate\"内容=\"2012/11/14 10:56:58\"

我尝试了 xpathSApply(doc, "//meta",xmlValue),但没有成功。

那么,我应该使用什么模式来代替“//meta”?

谢谢!

最佳答案

以本页为例:

library(XML)
url <- "http://stackoverflow.com/questions/22342501/"
doc <- htmlParse(url, useInternalNodes=T)
names <- doc["//meta/@name"]
content <- doc["//meta/@content"]
cbind(names,content)
# names content
# [1,] "twitter:card" "summary"
# [2,] "twitter:domain" "stackoverflow.com"
# [3,] "og:type" "website"
# [4,] "og:image" "http://cdn.sstatic.net/stackoverflow/img/apple-touch-icon@2.png?v=fde65a5a78c6"
# [5,] "og:title" "how to get information within <meta name...> tag in html using htmlParse and xpathSApply"
# [6,] "og:description" "I have a bunch of webpages and I want to extract their publishing dates. \nFor some webpages, the da" [truncated]
# [7,] "og:url" "http://stackoverflow.com/questions/22342501/how-to-get-information-within-meta-name-tag-in-html-usi" [truncated]

问题

xpathSApply(doc, "//meta",xmlValue)

xmlValue(...)吗返回元素内容(例如,元素的文本部分)。 <meta>标签没有文字。

关于html - 如何使用 htmlParse 和 xpathSApply 在 html 中的 &lt;meta name...> 标签中获取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22342501/

25 4 0