rvest:如何找到所需的 css-selector-6ren

rvest:如何找到所需的 css-selector

转载作者：行者123 更新时间：2023-12-04 15:02:39

28

4

我正在尝试使用 rvest 包抓取在议会中举行的部分演讲。使用 css 选择器或 chrome 的检查器工具为我提供了一个选择器，但是我无法检索预期的(任何)数据。据我所知，该站点也不是基于 java 等的，即不需要 RSelenium 等。

这里是 link :

library(tidyverse)
library(rvest)
library(xml2)

session_1 <- "https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html"

x <- session_1 %>%  
  rvest::read_html() %>% 
  rvest::html_element("wordsection14") %>% 
  rvest::html_text()

最终，我希望能够获取所有元素中包含的带有“wordsection*”类的文本。

如有任何提示，将不胜感激。非常感谢。

最佳答案

tl;dr 问题不在于 css 选择器。这是编码。指定编码 = 'latin1'

read_html('https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html', encoding = "latin1") %>% 
  html_nodes('[class^=WordSection]') %>%
  html_text() %>% 
  length()

curl :

您也可以使用 curl。

library(rvest)
library(curl)

text_info <- curl_fetch_memory("https://www.parlament.gv.at/PAKT/VHG/XXVII/NRSITZ/NRSITZ_00001/fnameorig_796482.html") %>%
  {rawToChar(.$content)} %>%
  .[[1]] %>%
  read_html() %>%
  html_nodes("[class^=WordSection]") %>%
  html_text()

CSS 选择器:

如果您使用以运算符 ^ 开头的 css 属性 = 值选择器来获取类值以 WordSection 开头的所有节点。

鉴于有很多嵌套以避免重复 Material ，您可能会决定使用 nth-child range选择器或 other css selector combinations限制匹配列表。

编写一些自定义函数来管理字符串清理。

如果您愿意，当然可以使用不同的 css 选择器。

关于rvest:如何找到所需的 css-selector，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66698961/

28

4

0

文章推荐： scala - 在 FRP 中实现快照

文章推荐： Mercurial:在 bundle 中包含 secret 变更集？

css - selector > selector 和 selector 选择器有什么区别？
我想知道这两者之间有什么不同 .myClass/DomElement .myotherclassinsidethatelement 和 .myClass/DomElement > .myothercl
jquery - 何时在 ("selector") 上使用以及何时在 ("selector", "selector") 上使用
使用 jQuery on() 版本 1.7。我通常这样绑定(bind)我的事件: $(".foo").on("click", function() { console.log("foo cli
javascript - jQuery 找到 .Selector 但不是嵌套选择器 (.selector .selector)
我想找到与选择器匹配的所有元素，但如果它已经包含在匹配元素中则不查找。 $('#container').find('.child').not('.child .child'); 请注意，.child
html - 如何结合 :not Selector with > Selector?
我有一个看起来像这样的无序列表，但更广泛: Parent Category 2 Parent Category 2 Parent Category 3
css - 为什么是:not() selector not working with the * selector?
这个问题在这里已经有了答案: CSS negation pseudo-class :not() for parent/ancestor elements (2 个答案) 关闭 4 年前。
css - 可以CSS :not selector target :before and :after selectors
我希望使用 CSS :not() 来定位 before 选择器。这可能吗？示例: https://jsfiddle.net/uuq62b8d/ a.button:before { content
jquery - $.each(selector) 和 $(selector).each() 有什么区别
这有什么区别: $.each($('#myTable input[name="deleteItem[]"]:checked').do_something()); 还有这个: $('#myTable i
jQuery :not() selector combined with Attribute Contains selector
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
jquery-selectors - jQuery李:has(ul) selector issue
我正在使用 UL LI 列表和 jQuery 创建一棵树。我使用了 jQuery 选择器 jQuery(li:has(ul)) 查找所有具有子节点的列表节点，然后向其添加单击事件。 jQuery(li
jQuery : Difference between String selector and function selector?
我真的不知道如何命名这两种方法，所以请原谅我这样调用它们。字符串选择器 $("#myList li").eq(3); 函数选择器 $("#myList li:eq(3)"); 据我所知，他们都做同样
css - :not (CSS selector) dealing with threaded selectors
我有以下代码: .. 我正在使用以下 CSS 来排除具有“main-l tbl”类的表: table:not(.main-l .views-table) { .. } 我注
javascript - "jQuery(selector)"和 "$(selector)"和有什么区别？
这个问题已经有答案了: 已关闭12 年前。 Possible Duplicate: What is the difference between $ and jQuery 我注意到使用“jQuery(
javascript - CSS :not() selector with selector list incoming
我有许多 css 选择器和许多选择器异常，所以我使用 :not 将它们排除在外... 示例(只是一些我不需要的选择器): [class*="-dashboard-"]:not([class$="-bi
ios - CADisplayLink的displayLinkWithTarget有什么区别 :selector: and UIScreen's displayLinkWithTarget:selector:?
CADisplayLink 有这个方法是有道理的，但我很好奇为什么 UIScreen 也会有它。最佳答案文档说屏幕提供的显示链接与该屏幕相关联。但是，查看官方文档，与任何屏幕都没有明显的关系；显示
javascript - $ ("selector") 和 $ ("selector").toArray() 有什么区别
我在这里阅读了关于 toArray() 的文档，并在控制台中对其进行了测试。我找不到在选择器上调用 toArray() 和调用选择器本身之间的区别。两种方式都得到了完全相同的结果，这是一个与选择器匹
jQuery find $.find ('selector' ) 与 $ ('selector' ) 区别
我有一个问题，为什么这两个代码片段不同。 $('#ctl00_DDMenu1_HyperLink1') //jQuery(a#ctl00_DDMenu1_HyperLink1 Default.asp
php - 如何使用:not selector in symfony's css selector component
我想通过以下方式模拟我可以在 jQuery 中实现的目标$('.someClass:not(.hidden)') 我试过下面的代码。 $crawler->filter('someClass:not(.
Java:Selector.keys() 和 Selector.selectedKeys() 有什么区别？
这个问题不太可能对任何 future 的访客有帮助；它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用，visit the
php - 如何使用:not selector in symfony's css selector component
我想通过以下方式模拟我可以在 jQuery 中实现的目标$('.someClass:not(.hidden)') 我试过下面的代码。 $crawler->filter('someClass:not(.
rust - Change selector in match when selector is a mutable reference
我想根据 Iterator::next 中当前枚举变体的某些属性更改枚举变体。我有两次尝试，都没有编译: enum Test { A(Vec), B, } impl Iterator

首页

博学

6Ren·AI

商城

rvest:如何找到所需的 css-selector