gpt4 book ai didi

Rvest html_nodes span div 和 Xpath

转载 作者:行者123 更新时间:2023-12-02 20:31:24 24 4
gpt4 key购买 nike

我正在尝试通过阅读 XPath 代码来抓取网站。当我进入开发人员部分时,我看到这些行:

<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">

我想抓取 data-abc 的所有值。假设网站上的每个元素都是一部电影,所以我想抓取页面上每部电影的所有 data-abc 元素。

我想使用 Rvest 包和 R 来实现这一点。以下是两种不同的尝试,但均无效...

website %>% html_nodes("js-bestRate-show") %>% html_text()

website %>%
html_nodes(xpath = "js-bestRate-show") %>%
html_nodes(xpath = "//div") %>%
html_nodes(xpath = "//span") %>%
html_nodes(xpath = "//data-abc")

有人知道 html_nodes 和 Rvest 是如何工作的吗?

最佳答案

该节点是 span ,具有类 js-bestRate-show。其他一切都是属性。所以你想要这样的东西:

library(rvest)
h <- '<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">'

h %>%
read_html() %>%
html_nodes("span.js-bestRate-show") %>%
html_attr("data-abc")

关于Rvest html_nodes span div 和 Xpath,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48633708/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com