r - 如何使用rvest来刮这张 table ？环形？-6ren

r - 如何使用rvest来刮这张 table ？环形？

转载作者：行者123 更新时间：2023-12-04 07:50:12

30

4

我正在尝试从网站(名称)“抓取”一些数据。我知道如何获得列表中的第一个名字——但我需要以同样的方式保存几千个名字。
这是我的代码:


library(rvest)
library(tidyverse)

url <- ("https://www.advokatsamfundet.se/Advokatsamfundet-engelska/Find-a-lawyer/Search-result/?firstname=&lastname=&companyname=&postalcity=&country=4401&spokenlanguage=&sortingcity=&positions=102001")


names <- url %>% 
  read_html() %>% 
    html_elements(xpath = '/html/body/div[3]/div/div/main/div[2]/div[2]/div[1]/a') %>% 
  html_text()

这给了我列表中的第一个名字，就像它在表中一样。
名称遵循这个简单的结构:

'/html/body/div[3]/div/div/main/div[2]/div[2]/div[1]/a')
'/html/body/div[3]/div/div/main/div[2]/div[3]/div[1]/a')
'/html/body/div[3]/div/div/main/div[2]/div[4]/div[1]/a')

请注意，我们为每个名称加 1。它以 6212 结束。
我开始研究一个函数，但我一无所获。
无论如何 - 但它不起作用，我认为这可能是一个死胡同。

scrape_fun <- function(.x){
  names %>% 
  html_elements(xpath = '/html/body/div[3]/div/div/main/div[2]/div[.x]/div[1]/a') %>% 
  html_text()
}

关于如何让它工作的任何建议？全部6212个名字？

最佳答案

您可以使用以下 css 模式来选择它们

library(magrittr)
library(rvest)

people <- read_html("https://www.advokatsamfundet.se/Advokatsamfundet-engelska/Find-a-lawyer/Search-result/?firstname=&lastname=&companyname=&postalcity=&country=4401&spokenlanguage=&sortingcity=&positions=102001") %>%
  html_nodes(".c-list .o-flex__item:nth-child(1) > [href]") %>%
  html_text()

这将选择 href属性，在类 o-flex__item 的第一个子元素(最左边的列)中, 具有与类 c-list 共享的父级. >是一个子组合子，指定右侧的内容是左侧内容的直接子项。与使用后代组合器(可以向下嵌套级别)相比，它是一种更有效和更具体的组合器。类 css 选择器是仅次于 id 的第二快方法。
另一种模式可能是 html_nodes("[href*=personid]") - 这适用于所有 href包含字符串 personid 的属性.

关于r - 如何使用rvest来刮这张 table ？环形？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67026815/

30

4

0

文章推荐： php - 播种 - 具有 3 级关系的 Laravel 模型工厂

文章推荐： c - 强制 2 函数对齐的幂 s.t 对齐 % 一些其他值 == 对齐

文章推荐： r - 添加到拼凑而成的 grobs 的控制填充

r - 如何使用rvest来刮这张 table ？环形？
我正在尝试从网站(名称)“抓取”一些数据。我知道如何获得列表中的第一个名字——但我需要以同样的方式保存几千个名字。这是我的代码: library(rvest) library(tidyverse)
iOS (Swift) 环形 UIBezierPath for CAShapeLayer
我正在尝试制作一个环形 UIBezierPath 用作 CAShapeLayer 的 path 以下产生一个循环路径: let radius = 100.0 let circularPath = UI
javascript - 1 分钟后停止 setTimeout。环形
如何在 1 分钟后停止 setTimeout。由于循环，它继续运行。TIA var image1 = new Image() image1.src = "images/slide1.jpg"
ios - SVProgressHud 环形/前景色 IOS
我现在这个问题发布了更多次，但我还没有解决我的问题。在我的例子中，foregroundColor 不工作。即使 foregroundColor 没有选择任何颜色，环也不会出现 darkGray 颜色。
java - 为什么这个 do/while 循环卡在 inf 中？环形？
public class Tester { // instance variables - replace the example below with your own Scanne
c++ - 我怎么知道什么时候用\n 输入完 cin？ (环形)
来自澳大利亚的投票问题: 一个机器人会不断地输入信息，它可以达到 1000 行。他将输入的内容示例: "1 2 3 2 1 3 2 3 1 1 2 3 3 1 2 " 我怎么知道他什么时候输入完信息？
C - do/while 循环和 switch(int)。输入 char 值会导致 inf。环形
有人可以启发如何进行这项工作吗？所以现在我有一个 do/while 循环，里面有一个开关。开关由一个 int 选择处理，scanf 是“%d”。但是，如果我写一个不同于数字的字符符号，如 a、b、c.

首页

博学

6Ren·AI

商城

r - 如何使用rvest来刮这张 table ？环形？