html - 从 R 中多个网页的表格中抓取数据(足球运动员)-6ren

html - 从 R 中多个网页的表格中抓取数据(足球运动员)

转载作者：太空狗更新时间：2023-10-29 14:11:04

25

4

我正在为学校开展一个项目，我需要收集 NCAA 橄榄球运动员个人的职业统计数据。每个玩家的数据都是这种格式。

http://www.sports-reference.com/cfb/players/ryan-aplin-1.html

我找不到所有球员的总和，所以我需要一页一页地拉出每个传球得分、冲球和 catch 等html表的最后一行

每个玩家都按他们的姓氏分类，这里有指向每个字母表的链接。

http://www.sports-reference.com/cfb/players/

例如，这里可以找到每个姓 A 的玩家。

http://www.sports-reference.com/cfb/players/a-index.html

这是我第一次真正接触数据抓取，所以我试图找到类似的问题和答案。我找到的最接近的答案是 this question

我相信我可以使用非常相似的方法，将页码与收集到的玩家姓名进行切换。但是，我不确定如何更改它以查找播放器名称而不是页码。

Samuel L. Ventura 最近也发表了关于 NFL 数据的数据抓取的演讲，可以找到 here .

编辑:

Ben 真的很有帮助并提供了一些很棒的代码。第一部分工作得很好，但是当我尝试运行第二部分时，我遇到了这个问题。

> # unlist into a single character vector
> links <- unlist(links)
> # Go to each URL in the list and scrape all the data from the tables
> # this will take some time... don't interrupt it! 
> all_tables <- lapply(links, readHTMLTable, stringsAsFactors = FALSE)
Error in UseMethod("xmlNamespaceDefinitions") : 
 no applicable method for 'xmlNamespaceDefinitions' applied to an object of class "NULL"
> # Put player names in the list so we know who the data belong to
> # extract names from the URLs to their stats page...
> toMatch <- c("http://www.sports-reference.com/cfb/players/", "-1.html")
> player_names <- unique (gsub(paste(toMatch,collapse="|"), "", links))
Error: cannot allocate vector of size 512 Kb
> # assign player names to list of tables
> names(all_tables) <- player_names
Error: object 'player_names' not found
> fix(inx_page)
Error in edit(name, file, title, editor) : 
  unexpected '<' occurred on line 1
 use a command like
 x <- edit()
 to recover
In addition: Warning message:
In edit.default(name, file, title, editor = defaultEditor) :
  deparse may be incomplete

这可能是由于没有足够的内存(我目前使用的计算机上只有 4gb)而导致的错误。虽然不明白错误

    > all_tables <- lapply(links, readHTMLTable, stringsAsFactors = FALSE)
Error in UseMethod("xmlNamespaceDefinitions") : 
 no applicable method for 'xmlNamespaceDefinitions' applied to an object of class "NULL"

查看我的其他数据集，我的玩家实际上只能追溯到 2007 年。如果有某种方法可以只提取 2007 年以后的人，这可能有助于缩小数据。如果我有一个我想提取名字的人的列表，我可以只替换 lnk 吗

 links[[i]] <- paste0("http://www.sports-reference.com", lnk)

只有我需要的球员？

最佳答案

以下是您可以轻松获取所有玩家页面上所有表格中的所有数据的方法...

首先列出所有玩家页面的 URL...

require(RCurl); require(XML)
n <- length(letters) 
# pre-allocate list to fill
links <- vector("list", length = n)
for(i in 1:n){
  print(i) # keep track of what the function is up to
  # get all html on each page of the a-z index pages
  inx_page <- htmlParse(getURI(paste0("http://www.sports-reference.com/cfb/players/", letters[i], "-index.html")))
  # scrape URLs for each player from each index page
  lnk <- unname(xpathSApply(inx_page, "//a/@href"))
  # skip first 63 and last 10 links as they are constant on each page
  lnk <- lnk[-c(1:63, (length(lnk)-10):length(lnk))]
  # only keep links that go to players (exclude schools)
  lnk <- lnk[grep("players", lnk)]
  # now we have a list of all the URLs to all the players on that index page
  # but the URLs are incomplete, so let's complete them so we can use them from 
  # anywhere
  links[[i]] <- paste0("http://www.sports-reference.com", lnk)
}
# unlist into a single character vector
links <- unlist(links)

现在我们有大约 67,000 个 URL 的矢量(似乎有很多玩家，对吗？)，所以:

其次，抓取每个 URL 上的所有表以获取它们的数据，如下所示:

# Go to each URL in the list and scrape all the data from the tables
# this will take some time... don't interrupt it!
# start edit1 here - just so you can see what's changed
    # pre-allocate list
all_tables <- vector("list", length = (length(links)))
for(i in 1:length(links)){
  print(i)
  # error handling - skips to next URL if it gets an error
  result <- try(
    all_tables[[i]] <- readHTMLTable(links[i], stringsAsFactors = FALSE)
  ); if(class(result) == "try-error") next;
}
# end edit1 here
# Put player names in the list so we know who the data belong to
# extract names from the URLs to their stats page...
toMatch <- c("http://www.sports-reference.com/cfb/players/", "-1.html")
player_names <- unique (gsub(paste(toMatch,collapse="|"), "", links))
# assign player names to list of tables
names(all_tables) <- player_names

结果如下所示(这只是输出的一个片段):

all_tables
$`neli-aasa`
$`neli-aasa`$defense
   Year School Conf Class Pos Solo Ast Tot Loss  Sk Int Yds Avg TD PD FR Yds TD FF
1 *2007   Utah  MWC    FR  DL    2   1   3  0.0 0.0   0   0      0  0  0   0  0  0
2 *2010   Utah  MWC    SR  DL    4   4   8  2.5 1.5   0   0      0  1  0   0  0  0

$`neli-aasa`$kick_ret
   Year School Conf Class Pos Ret Yds  Avg TD Ret Yds Avg TD
1 *2007   Utah  MWC    FR  DL   0   0       0   0   0      0
2 *2010   Utah  MWC    SR  DL   2  24 12.0  0   0   0      0

$`neli-aasa`$receiving
   Year School Conf Class Pos Rec Yds  Avg TD Att Yds Avg TD Plays Yds  Avg TD
1 *2007   Utah  MWC    FR  DL   1  41 41.0  0   0   0      0     1  41 41.0  0
2 *2010   Utah  MWC    SR  DL   0   0       0   0   0      0     0   0       0

最后，假设我们只想查看传递表...

# just show passing tables
passing <- lapply(all_tables, function(i) i$passing)
# but lots of NULL in here, and not a convenient format, so...
passing <- do.call(rbind, passing)

我们最终得到了一个可以进行进一步分析的数据框(也只是一个片段)...

             Year             School Conf Class Pos Cmp Att  Pct  Yds Y/A AY/A TD Int  Rate
james-aaron  1978          Air Force  Ind        QB  28  56 50.0  316 5.6  3.6  1   3  92.6
jeff-aaron.1 2000 Alabama-Birmingham CUSA    JR  QB 100 182 54.9 1135 6.2  6.0  5   3 113.1
jeff-aaron.2 2001 Alabama-Birmingham CUSA    SR  QB  77 148 52.0  828 5.6  4.3  4   6  99.8

关于html - 从 R 中多个网页的表格中抓取数据(足球运动员)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20319321/

25

4

0

文章推荐： r - Blogdown、Git 和 RStudio : Unable to Stage public/folder

文章推荐： java - Android Wear - Google Maps API v2 可用吗？

文章推荐： git - Jenkins GIT 获取错误

文章推荐： javascript - 如何为

latex - 表格，表格，tabularx 垂直对齐， latex
好的，这听起来很简单，但我已经花了几个小时在谷歌上搜索，我只是找不到解决方案，这并不复杂。我想创建一个包含图像和文本的表格。我希望表格的每一行都具有相同的高度。我希望文本始终从顶部开始。 IE。 \
HTML/CSS 表格(表格)DOB 行显示在两行上
在我的网站表单上 - 我的出生日期、月份和年份菜单显示在两行上，我希望它们都显示在同一行上。当我测试代码时，它显示在一行中，所以我相信一定存在宽度问题。您可以在右侧表格 (incomeprotec
javascript - Web 应用程序 - Google 表格 - 带有输入字段的 html 表格
我们需要跟踪和审核生产，本质上我们有很多订单，但我们似乎在途中丢失了一些产品(废品等)。为了阻止这种情况，我们现在已在 Google 表格上下了订单，并列出了应有的数量，然后员工会写下收到的数量。
ios - 带有两个搜索栏的 UISearchDisplayController 表格 View ，表格 View 无法正确滚动
我正在转换我的应用程序，以便它适用于 iOS 7。在应用程序的一部分，我有两个搜索栏，每个搜索栏都有一个与之关联的 UISearchDisplayController。当我搜索 UISearchDis
html - CSS 表格(非固定)是否会遇到与 HTML 表格(非固定)相同的性能问题？
正如标题所说，非固定表格布局是否与类似的 HTML 表格具有相同的性能问题？最佳答案非固定表格的问题在于，要确定一列的宽度，必须加载该列的所有单元格。这仅在...... …您有一个包含几千字节或几
Javascript 表格
我在使用 Javascript 遍历表格并从一行的第一个单元格获取文本时遇到问题。我想获取此单元格的文本，以便我可以将它与其他内容进行比较，如果文本匹配则删除该行。但是，当我尝试获取文本时，实际出现的
HTML:表格？
我经常发现自己想要制作一个表格表格——一堆行，每一行都是一个单独的表格，有自己的字段和提交按钮。例如，这是一个宠物店应用程序示例——假设这是一个结帐屏幕，您可以选择更新所选宠物的数量和属性，并在结帐前
关于表格的正则表达式讨论(表格)
看过许多UBB代码，包括JS，ASP，JSP的，一直没发现表格的UBB，虽然可以直接用HTML模式实现相同表格功能，但对于某些开放的站点来说开放HTML模式终究是不合适的，故一直想实现表格的UBB。
HTML 表格
表格由 table 标签来定义。每个表格均有若干行（由 tr 标签定义），每行被分割为若干单元格（由 td 标签定义）。字母 td 指表格数据（table data），即数据单元格的内容。数据单元格
带有边框半径和粘性标题的 HTML 表格
我有一个 HTML 与 border-radius和使用 position: sticky 的粘性标题看起来像这样: https://codepen.io/muhammadrehansaeed/pen
iPhone - 表格/网格数据
对于 iPhone 应用程序，我需要以网格格式显示只读表格数据。该数据可能有许多行和列。我可以使用 UITableView，但问题是数据很可能会非常宽并且需要滚动。有没有办法将 UITableVi
javascript - 根据选择显示表格/表格
我知道这里有类似的问题，但我找不到适合我的答案。我想要的是显示表单“默认”是选择了某些选项(在这种情况下，除了“Ban Appeal”或“Ban Appeal(西类牙语)”之外的所有内容，我希望仅在
flutter - 在Flutter中创建对齐文本的表格/表格
天啊! 我想在Flutter中创建以下非常简单的表。基本上是两列文字，左列右对齐，右列左对齐。如果右列具有多个名称，则每一行都将顶部对齐。左列应自动调整为最大项目的大小(因为每个标题都有翻译字符串)
SSAS 表格 - 多个模型？
我们开始构建 SSAS 表格模型，并想知道大多数人是否拥有一个或多个模型。如果有多个，您是否复制每个所需的表，或者是否有办法在模型之间共享表？我想我知道答案，但我希望那些有更多经验的人能够证实我们的发
将任意数量的单词分成两列 - Google 表格
tl;博士如何将任意数量的单词分成两列，总是在最后一列中只有最后一个单词，在第一列中包含所有其他单词？ =IFS( LEN(C2)-LEN(SUBSTITUTE(C2," ",""))=1, SP
zeromq - 关于面向消息的中间件的图表/表格
你们知道一个图表或dable，它可以提供一个简短而简洁但仍然完整且相对最新的现有协议(protocol)及其细节的 View ？ (即:ZeroMQ、Rendez-Vous、EMS、...所有这些!:
c++ - 使用MFC的表格/表格
我才刚刚开始开发MFC应用程序，我希望对整个“控件”概念更加熟悉。我在Visual Studio中使用对话框编辑器，到目前为止，我无法找到添加简单表/网格的功能。这对我来说似乎很基础，但是我什至找不到
c# - 代表一个巨大的矩阵/表格
我需要对一个非常大的表或矩阵执行计算和操作，大约有 7500 行和 30000 列。矩阵数据将如下所示: 文件编号|字1 |字 2 |字 3 |... |字 30000 |文档类 0032 1 0
java - 表格 reshape
我正在使用设计非常糟糕的数据库，我需要在编写查询之前重新调整表格。以下是我的常见问题: 时间戳已分为两列(一列用于日期，另一列用于时间)。一些字符串列也被拆分成多个列。大多数字符串都有固定长度和
PHP HTML 表格
我正在尝试显示 $row["name"] 通过 HTML Table 的形式，如下所示: echo " ".$row["name"]." "; 我也从这里获取行变量: $que

首页

博学

6Ren·AI

商城

html - 从 R 中多个网页的表格中抓取数据(足球运动员)