- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试创建一个动态循环来运行多个 URL 并从每个表中抓取数据,将所有内容连接到一个数据框中。我尝试了一些想法,如下图所示,但到目前为止没有任何效果。这种东西并不真正适合我的驾驶室,但我正在努力学习它是如何工作的。如果有人可以帮助我完成这项工作,我将不胜感激。
谢谢。
library(rvest)
#create a master dataframe to store all of the results
complete<-data.frame()
yearsVector <- c("2010", "2011", "2012", "2013", "2014", "2015")
positionVector <- c("qb", "rb", "wr", "te", "ol", "dl", "lb", "cb", "s")
for (i in 1:length(yearsVector))
{
for (j in 1:length(positionVector))
{
# create a url template
URL.base<-"http://www.nfl.com/draft/"
URL.intermediate <- "/tracker?icampaign=draft-sub_nav_bar-drafteventpage-tracker#dt-tabs:dt-by-position/dt-by-position-input:"
#create the dataframe with the dynamic values
URL <- paste0(URL.base, yearsVector, URL.intermediate, positionVector)
#print(URL)
#read the page - store the page to make debugging easier
page<- read_html(URL)
#This needs work since the page is dynamicly generated.
DF <- html_nodes(page, xpath = ".//table") %>% html_table(fill=TRUE)
#About 530 names returned, may need to search and extracted requested info.
# to find the players last names
lastnames<-str_locate_all(page, "lastName")[[1]]
names<- str_sub(page, lastnames[,2]+4, lastnames[,2]+20)
names<-str_extract(names, "[A-Z][a-zA-Z]*")
length(names[-c(1:16)])
#Still need to delete the first 16 names (don't know if this is consistent across all years
#to find the players positions
positions<-str_locate_all(page, "pos")[[1]]
ppositions<- str_sub(page, positions[,2]+4, positions[,2]+10)
pos<-str_extract(ppositions, "[A-Z]*")
pos<- pos[pos !=""]
#Still need to clean delete the first 16 names (don't know if this is consistent across all years
#store the temp values into the master dataframe
complete<-rbind(complete, DF)
}
}
我编辑了我的 OP 以合并您的代码 Dave。我想我快到了,但这里有些地方不太对劲。我收到此错误。
eval(substitute(expr), envir, enclos) 错误:需要一个值
我知道 URL 是正确的!
http://postimg.org/image/ccmvmnijr/
我认为问题在于这一行:
page <- read_html(URL)
或者,也许这一行:
DF <- html_nodes(page, xpath = ".//table") %>% html_table(fill = TRUE)
你能帮我越过终点线吗?谢谢!
最佳答案
试试这个答案!我修复了 URL 的创建并设置了一个主数据框来存储请求的信息。该页面是动态生成的,因此使用这些来自 rvest 的标准工具是行不通的。所有的球员(大约16个领域),大学和选秀信息都存储在页面上,这是一个搜索和提取的问题。
library(rvest)
library(stringr)
library(dplyr)
#create a master dataframe to store all of the results
complete<-data.frame()
yearsVector <- c( "2011", "2012", "2013", "2014", "2015")
#all position information is stored on each page no need to create sparate queries
#positionVector <- c("qb", "rb", "wr", "te", "ol", "dl", "lb", "cb", "s")
positionVector <- c("qb")
for (i in 1:length(yearsVector))
{
for (j in 1:length(positionVector))
{
# create a url template
URL.base<-"http://www.nfl.com/draft/"
URL.intermediate <- "/tracker?icampaign=draft-sub_nav_bar-drafteventpage-tracker#dt-tabs:dt-by-position/dt-by-position-input:"
#create the dataframe with the dynamic values
URL <- paste0(URL.base, yearsVector[i], URL.intermediate, positionVector[j])
print(yearsVector[i])
print(URL)
#read the page - store the page to make debugging easier
page<- read_html(URL)
#This needs work since the page is dynamicly generated.
#DF <- html_nodes(page, xpath = ".//table") %>% html_table(fill=TRUE)
#About 539 names returned, may need to search and extracted requested info.
#find records for each player
playersloc<-str_locate_all(page, "\\{\"personId.*?\\}")[[1]]
players<-str_sub(page, playersloc[,1]+1, playersloc[,2]-1)
#fix the cases where the players are named Jr.
players<-gsub(", ", "_", players )
#split and reshape the data in a data frame
play2<-strsplit(gsub("\"", "", players), ',')
data<-sapply(strsplit(unlist(play2), ":"), FUN=function(x){x[2]})
df<-data.frame(matrix(data, ncol=16, byrow=TRUE))
#name the column names
names(df)<-sapply(strsplit(unlist(play2[1]), ":"), FUN=function(x){x[1]})
#sort out the pick information
picks<-str_locate_all(page, "\\{\"id.*?player.*?\\}")[[1]]
picks<-str_sub(page, picks[,1]+1, picks[,2]-1)
#fix the cases where there are commas in the notes section.
picks<-gsub(", ", "_", picks )
picks<-strsplit(gsub("\"", "", picks), ',')
data<-sapply(strsplit(unlist(picks), ":"), FUN=function(x){x[2]})
picksdf<-data.frame(matrix(data, ncol=6, byrow=TRUE))
names(picksdf)<-sapply(strsplit(unlist(picks[1]), ":"), FUN=function(x){x[1]})
#sort out the college information
schools<-str_locate_all(page, "\\{\"id.*?name.*?\\}")[[1]]
schools<-str_sub(page, schools[,1]+1, schools[,2]-1)
schools<-strsplit(gsub("\"", "", schools), ',')
data<-sapply(strsplit(unlist(schools), ":"), FUN=function(x){x[2]})
schoolsdf<-data.frame(matrix(data, ncol=3, byrow=TRUE))
names(schoolsdf)<-sapply(strsplit(unlist(schools[1]), ":"), FUN=function(x){x[1]})
#merge the 3 tables together
df<-left_join(df, schoolsdf, by=c("college" = "id"))
df<-left_join(df, picksdf, by=c("pick" = "id"))
#store the temp values into the master dataframe
complete<-rbind(complete, df)
}
}
找出正确的正则表达式来查找和定位所需信息非常棘手。看起来 2010 年的数据使用不同的格式使用大学信息,因此我忽略了那一年。另外,请确保您没有违反本网站的服务条款。祝你好运
关于r - 尝试遍历 HTML 表格并创建数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40264390/
好的,这听起来很简单,但我已经花了几个小时在谷歌上搜索,我只是找不到解决方案,这并不复杂。 我想创建一个包含图像和文本的表格。我希望表格的每一行都具有相同的高度。我希望文本始终从顶部开始。 IE。 \
在我的网站表单上 - 我的出生日期、月份和年份菜单显示在两行上,我希望它们都显示在同一行上。 当我测试代码时,它显示在一行中,所以我相信一定存在宽度问题。 您可以在右侧表格 (incomeprotec
我们需要跟踪和审核生产,本质上我们有很多订单,但我们似乎在途中丢失了一些产品(废品等)。 为了阻止这种情况,我们现在已在 Google 表格上下了订单,并列出了应有的数量,然后员工会写下收到的数量。
我正在转换我的应用程序,以便它适用于 iOS 7。在应用程序的一部分,我有两个搜索栏,每个搜索栏都有一个与之关联的 UISearchDisplayController。当我搜索 UISearchDis
正如标题所说,非固定表格布局是否与类似的 HTML 表格具有相同的性能问题? 最佳答案 非固定表格的问题在于,要确定一列的宽度,必须加载该列的所有单元格。这仅在...... …您有一个包含几千字节或几
我在使用 Javascript 遍历表格并从一行的第一个单元格获取文本时遇到问题。我想获取此单元格的文本,以便我可以将它与其他内容进行比较,如果文本匹配则删除该行。但是,当我尝试获取文本时,实际出现的
我经常发现自己想要制作一个表格表格——一堆行,每一行都是一个单独的表格,有自己的字段和提交按钮。例如,这是一个宠物店应用程序示例——假设这是一个结帐屏幕,您可以选择更新所选宠物的数量和属性,并在结帐前
看过许多UBB代码,包括JS,ASP,JSP的,一直没发现表格的UBB,虽然可以直接用HTML模式实现相同表格功能,但对于某些开放的站点来说开放HTML模式终究是不合适的,故一直想实现表格的UBB。
表格由 table 标签来定义。每个表格均有若干行(由 tr 标签定义),每行被分割为若干单元格(由 td 标签定义)。字母 td 指表格数据(table data),即数据单元格的内容。数据单元格
我有一个 HTML 与 border-radius和使用 position: sticky 的粘性标题看起来像这样: https://codepen.io/muhammadrehansaeed/pen
对于 iPhone 应用程序,我需要以网格格式显示只读表格数据。该数据可能有许多行和列。 我可以使用 UITableView,但问题是数据很可能会非常宽并且需要滚动。 有没有办法将 UITableVi
我知道这里有类似的问题,但我找不到适合我的答案。 我想要的是显示表单“默认”是选择了某些选项(在这种情况下,除了“Ban Appeal”或“Ban Appeal(西类牙语)”之外的所有内容,我希望仅在
天啊! 我想在Flutter中创建以下非常简单的表。基本上是两列文字,左列右对齐,右列左对齐。如果右列具有多个名称,则每一行都将顶部对齐。 左列应自动调整为最大项目的大小(因为每个标题都有翻译字符串)
我们开始构建 SSAS 表格模型,并想知道大多数人是否拥有一个或多个模型。如果有多个,您是否复制每个所需的表,或者是否有办法在模型之间共享表?我想我知道答案,但我希望那些有更多经验的人能够证实我们的发
tl;博士 如何将任意数量的单词分成两列,总是在最后一列中只有最后一个单词,在第一列中包含所有其他单词? =IFS( LEN(C2)-LEN(SUBSTITUTE(C2," ",""))=1, SP
你们知道一个图表或dable,它可以提供一个简短而简洁但仍然完整且相对最新的现有协议(protocol)及其细节的 View ? (即:ZeroMQ、Rendez-Vous、EMS、...所有这些!:
我才刚刚开始开发MFC应用程序,我希望对整个“控件”概念更加熟悉。我在Visual Studio中使用对话框编辑器,到目前为止,我无法找到添加简单表/网格的功能。这对我来说似乎很基础,但是我什至找不到
我需要对一个非常大的表或矩阵执行计算和操作,大约有 7500 行和 30000 列。 矩阵数据将如下所示: 文件编号|字1 |字 2 |字 3 |... |字 30000 |文档类 0032 1 0
我正在使用设计非常糟糕的数据库,我需要在编写查询之前重新调整表格。 以下是我的常见问题: 时间戳已分为两列(一列用于日期,另一列用于时间)。 一些字符串列也被拆分成多个列。 大多数字符串都有固定长度和
我正在尝试显示 $row["name"] 通过 HTML Table 的形式,如下所示: echo " ".$row["name"]." "; 我也从这里获取行变量: $que
我是一名优秀的程序员,十分优秀!