gpt4 book ai didi

css - 使用 rvest 抓取所选下拉项的文本

转载 作者:行者123 更新时间:2023-11-28 09:24:48 24 4
gpt4 key购买 nike

我正在使用 Rseleniumrvest 抓取一些网站。因此,我循环浏览下拉菜单的元素以更改 javascript 表。下拉菜单中的表名应该成为我在抓取表中的标识符列。我设法抓取了表格,但在只抓取一个选定的菜单项时我被卡住了。以下是一些 html 代码行:

<select>
<option value="5823">2010/2011</option>
<option value="7094">2011/2012</option>
<option value="9024">2012/2013</option>
<option value="11976">2013/2014</option>
<option value="15388">2014/2015</option>
<option value="18336" selected="selected">2015/2016</option>
</select>

如何获取所选列的 html_text? css 选择器 :checked 不起作用。我试过:

 html_nodes("option") %>% html_attrs()

哪个正确地给了我:

 [[1]]
value
"5823"

[[2]]
value
"7094"

[[3]]
value
"9024"

[[4]]
value
"11976"

[[5]]
value
"15388"

[[6]]
selected value
"selected" "18336"

read_html(wData) %>% html_nodes("option") %>% html_text()
[1] "2010/2011" "2011/2012" "2012/2013" "2013/2014" "2014/2015" "2015/2016"

但我不知道如何将两者结合在一起。我只得到:

[1] "2015/2016"

因为我然后循环浏览选项,所以我需要一个通用的解决方案。谢谢。

最佳答案

您可以使用 xpath 选择器而不是 css 选择器。

read_html(wData) %>% html_nodes(xpath="//option[@selected]")  %>% html_text()

即使 :checked css 伪类不起作用,这也允许您搜索属性。

关于css - 使用 rvest 抓取所选下拉项的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35461079/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com