gpt4 book ai didi

r - 网络抓取图像

转载 作者:行者123 更新时间:2023-12-02 17:49:58 25 4
gpt4 key购买 nike

我是初学者。

我创建了一个使用 rvest 进行网页抓取的小代码。我找到了一个非常方便的代码 %>% html_node ()%>% html_text ()%>% as.numeric(),但我无法正确更改抓取图像 url 的代码。

我的图像网页抓取网址代码:

UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")

img <- UrlPage%>% html_node (". wp-image-5984")%>% html_attrs ()

结果:

class "Aligncenter size-full wp-image-5984" `enter code here`title "Blog gdp 2012_10_1" alt '" src "Http://eyeonhousing.files.wordpress.com/2012/11/blog-gdp-2012_10_1.jpg" height "337" width "450"

问题。如何获得没有其他属性的唯一链接? (仅限)

请帮我找到解决办法。谢谢!

最佳答案

您需要指定要提取哪个属性作为 html_attr 的参数。另外,您可能希望使 CSS 选择器(html_node 的参数)更加具体。这是我的代码:

library(rvest)

UrlPage <- html ("http://eyeonhousing.org/2012/11/gdp-growth-in-the-third-quarter-improved-but-still-slow/")
ImgNode <- UrlPage %>% html_node("img.wp-image-5984")
link <- html_attr(ImgNode, "src")

链接变量现在包含 URL。

您可以在这里找到有关 css 选择器的不错的引用: http://www.w3schools.com/cssref/css_selectors.asp

rvest 文档还提供了一些关于如何使用其功能的很好的示例: http://cran.r-project.org/web/packages/rvest/rvest.pdf

关于r - 网络抓取图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30693476/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com