gpt4 book ai didi

r - 使用 R 从网页中提取链接

转载 作者:行者123 更新时间:2023-12-02 05:59:54 26 4
gpt4 key购买 nike

下面的两篇文章是从网站提取数据并将其解析到 R 中的不同方法的很好示例。

Scraping html tables into R data frames using the XML package

How can I use R (Rcurl/XML packages ?!) to scrape this webpage

我对编程非常陌生,并且刚刚开始使用 R,所以我希望这个问题非常基本,但考虑到上面的这些帖子,我想它是。

我想要做的就是提取与给定模式匹配的链接。我觉得我可以使用 RCurl 读取网页并使用字符串表达式暴力提取它们。也就是说,如果网页的格式相当好,我将如何使用 XML 包来做到这一点。

随着我了解的越多,我喜欢在解决问题时“查看”数据。问题是,其中一些方法会生成列表的列表等,因此对于新手(例如我)来说很难遍历我需要去的地方。

再说一遍,我对所有编程都非常陌生,因此任何帮助或代码片段将不胜感激。

最佳答案

使用 rvest 更容易:

library(xml2)
library(rvest)

URL <- "http://stackoverflow.com/questions/3746256/extract-links-from-webpage-using-r"

pg <- read_html(URL)

head(html_attr(html_nodes(pg, "a"), "href"))

## [1] "//stackoverflow.com"
## [2] "http://chat.stackoverflow.com"
## [3] "//stackoverflow.com"
## [4] "http://meta.stackoverflow.com"
## [5] "//careers.stackoverflow.com?utm_source=stackoverflow.com&utm_medium=site-ui&utm_campaign=multicollider"
## [6] "https://stackoverflow.com/users/signup?ssrc=site_switcher&returnurl=http%3a%2f%2fstackoverflow.com%2fquestions%2f3746256%2fextract-links-from-webpage-using-r"

关于r - 使用 R 从网页中提取链接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3746256/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com