gpt4 book ai didi

xml - 从 R 中的网页返回链接列表

转载 作者:行者123 更新时间:2023-12-04 06:13:19 24 4
gpt4 key购买 nike

我正在尝试在 r 中编写一个函数,给定一个地址,它将返回该网页上的链接列表。

例如:

getLinks("http://prog21.dadgum.com/109.html")

会返回:
"http://prog21.dadgum.com/prog21.css"
"http://prog21.dadgum.com/atom.xml"
"http://prog21.dadgum.com/index.html"
"http://prog21.dadgum.com/archives.html"
"http://prog21.dadgum.com/atom.xml"
"http://prog21.dadgum.com/56.html"
"http://prog21.dadgum.com/39.html"
"http://prog21.dadgum.com/109.html"
"http://prog21.dadgum.com/108.html"
"http://prog21.dadgum.com/107.html"
"http://prog21.dadgum.com/106.html"
"http://prog21.dadgum.com/105.html"
"http://prog21.dadgum.com/104.html"

最佳答案

此功能似乎适用于其他网页,但由于某种原因不会返回相关页面的完整 URL。我有兴趣看看是否有更好的方法来做到这一点。

getLinks <- function(URL) {
require(XML)
doc <- htmlParse(URL)
out <- unlist(doc['//@href'])
names(out) <- NULL
out
}

关于xml - 从 R 中的网页返回链接列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7532348/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com