gpt4 book ai didi

rvest:如何找到所需的 css-selector

转载 作者:行者123 更新时间:2023-12-04 15:02:39 28 4
gpt4 key购买 nike

我正在尝试使用 rvest抓取在议会中举行的部分演讲。使用 css 选择器或 chrome 的检查器工具为我提供了一个选择器,但是我无法检索预期的(任何)数据。据我所知,该站点也不是基于 java 等的,即不需要 RSelenium 等。

这里是 link :

library(tidyverse)
library(rvest)
library(xml2)

session_1 <- "https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html"

x <- session_1 %>%
rvest::read_html() %>%
rvest::html_element("wordsection14") %>%
rvest::html_text()

最终,我希望能够获取所有元素中包含的带有“wordsection*”类的文本。

如有任何提示,将不胜感激。非常感谢。

最佳答案

tl;dr 问题不在于 css 选择器。这是编码。指定编码 = 'latin1'

read_html('https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html', encoding = "latin1") %>% 
html_nodes('[class^=WordSection]') %>%
html_text() %>%
length()

curl :

您也可以使用 curl。

library(rvest)
library(curl)

text_info <- curl_fetch_memory("https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html") %>%
{rawToChar(.$content)} %>%
.[[1]] %>%
read_html() %>%
html_nodes("[class^=WordSection]") %>%
html_text()

CSS 选择器:

如果您使用以运算符 ^ 开头的 css 属性 = 值选择器来获取类值以 WordSection 开头的所有节点。

鉴于有很多嵌套以避免重复 Material ,您可能会决定使用 nth-child range选择器或 other css selector combinations限制匹配列表。

编写一些自定义函数来管理字符串清理。

如果您愿意,当然可以使用不同的 css 选择器。


关于rvest:如何找到所需的 css-selector,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66698961/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com