html - 使用 R 抓取带有图像、文本和空白单元格的维基百科 HTML 表格-6ren

html - 使用 R 抓取带有图像、文本和空白单元格的维基百科 HTML 表格

转载作者：搜寻专家更新时间：2023-10-31 23:22:09

26

4

我感兴趣的表格是纽约市米其林星级餐厅的维基百科表格，获得的星级数以图片表示。

我能够使用两个步骤来抓取表格(首先获取“名称”和“自治市镇”列中的单词，其次获取表格主体中的 alt 标签)，但我想知道是否可以完成一步到位。我能够使用 rvest 包抓取数据。

由于 XML::readHTMLTable 函数无法读取维基百科页面，我尝试了 htmltab 包但没有成功，因为我无法弄清楚 bodyFun 参数所需的函数。说实话，我是网络抓取......和功能的新手。

我引用的问题:

Scraping html table with images using XML R package

Scraping html tables into R data frames using the XML package

这是我的代码:

library(stringr)
library(rvest)
library(data.table)

url <- "http://en.wikipedia.org/wiki/List_of_Michelin_starred_restaurants_in_New_York_City"

#Scrape the first two columns, restaurant name and borough
name.boro <- url %>% read_html() %>% html_nodes("table") %>% html_table(fill = TRUE)
name.boro <- as.data.table(name.boro[[1]])
name.boro[, 3:length(name.boro) := NULL]
135 * 13 #1,755 cells in first table

#scrape tables for img alt 
#note that because I used the "td" node, entries for all cells in all tables were pulled
stars <- url %>% read_html() %>% html_nodes("td") %>% html_node("img") %>% html_attr("alt")
stars 

#Make vector of numbers to index each column
df <- vector("list", 13)
for (i in 1:13){
  df[[i]] <- seq(i, 1755, 13)
}

#Put everything together
Mich.Guide <- name.boro 
Mich.Guide[, c("X2006", "X2007", "X2008", "X2009", "X2010", "X2011", "X2012", "X2013", "X2014", "X2015", 
               "X2016") := .(stars[unlist(df[3])], stars[unlist(df[4])], stars[unlist(df[5])], 
                             stars[unlist(df[6])], stars[unlist(df[7])], stars[unlist(df[8])], 
                             stars[unlist(df[9])], stars[unlist(df[10])], stars[unlist(df[11])], 
                             stars[unlist(df[12])], stars[unlist(df[13])] )]

谢谢!

最佳答案

你可以试试下面的方法

require(rvest)
url <- "http://en.wikipedia.org/wiki/List_of_Michelin_starred_restaurants_in_New_York_City"
doc <- read_html(url)
col_names <- doc %>% html_nodes("#mw-content-text > table > tr:nth-child(1) > th") %>% html_text()
tbody <- doc %>% html_nodes("#mw-content-text > table > tr:not(:first-child)")

extract_tr <- function(tr){
  scope <- tr %>% html_children()
  c(scope[1:2] %>% html_text(),
    scope[3:length(scope)] %>% html_node("img") %>% html_attr("alt"))
}

res <- tbody %>% sapply(extract_tr)
res <- as.data.frame(t(res), stringsAsFactors = FALSE)
colnames(res) <- col_names

现在您有了原始表。我将列的解析留给整数，列名留给你

关于html - 使用 R 抓取带有图像、文本和空白单元格的维基百科 HTML 表格，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38808008/

26

4

0

文章推荐： Php DateTime 实例使用时间戳返回错误结果

文章推荐： node.js - 带有 node.js restify 和 backbone.js 的身份验证系统

文章推荐： javascript - 非官方 SDK - 在充电时访问 Sphero？

javascript - 只显示一个段落......不管是否有更多，空白，空白，类......只有并且只有CSS
我正在寻找 css 属性以隐藏带或不带 css 类的段落，如果它包含空格 ( ) 或空白，但我想至少保留一个带或不带的段落，如果有更多的话。隐藏段落，如果它是空白的或包含 white-space(
ruby 空白
在 ruby 中对空白有不同的敏感度/设置吗？我有一个 RoR 项目，其中一个事件记录调用有很多组件: max_stuff = FooSummary.select("max(stuff)
数字后和文本前的 LaTeX 空白
如何在脚注中的数字后留空？一般来说，对于所有脚注! 例子: 好 : 1 Hello World 坏:1Hello World 最佳答案正确答案是不要重新定义\thefootnote ，因为这会在脚
javascript - 数组未设置回 [] (空白)
我有这段代码，每次第一个 for 循环再次开始时，我希望它将数组重置为空白，因为它正在使用新用户，但我得到的输出包含一个数组中的所有值。 var items = []; for (var i
php - Cakephp生成xml错误-空白
我试图在CakePHP中生成一个动态xml文档，以输出到浏览器。这是我的 Controller 代码: Configure::write ('debug', 0); $this->layout =
Ansible strip 空白
当我尝试在 nxos 设备上运行某些命令时，输出末尾有一个空格。我必须将输出与现有变量列表进行比较。末尾的空格导致比较错误。如何在字符串列表中使用 .strip() 函数？ - name: Curre
elasticsearch搜索查询返回 "hits"空白
我对 Elasticsearch 相当陌生，我一直在尝试对我的数据进行搜索，并且总是让点击部分为空。即使在数据上传和索引之后也会发生这种情况。我的映射如下: { "mappings":{
firefox - Firefox插件更改关于:空白
我想将about:blank页面更改为firefox插件首页页面的url。如何更改默认的新标签页网址或可以为新标签页提供默认网址？我正在使用Firefox附加SDK。最佳答案您可以结合使用Ta
R - 根据同一行不同列的值填充缺失值(空白)
我正在使用 R 并具有以下数据框示例，其中所有变量都是因子: first second third social birth control high
jquery 空白/灰色显示对话框的页面
如何清空显示对话框的页面。下面是我的代码HTML: .ui-dialog, .ui-dialog-content { border:1px solid #cde68c; border-botto
c - 尝试输出此函数时我什么也没得到\空白
更新“他的问题是要求我只运行一次 str ，他们已经告诉我该函数只需要一个参数)” 我试图返回第一个不重复的字符，例如:“blazqnqbla”->第一个不重复的字符是“z”，因此函数需要返回z。现在
php - 无法检查登录错误(空白)
我的登录验证有问题。问题是当我尝试使用管理员登录时，页面停止在 checklogin.php 上并且不会告诉它是否成功。这是我的代码。索引.html Aplik
MYSQL 查询以检查值是否为空/空白
我的查询是这样的 SELECT Distinct tm.teamid,tm.Team_Name,CONCAT_WS(' ',tu.FirstName+' '+tu.LastName) as Leade
javascript - 查询字符串错误。空白
我正在创建指向页面的超链接 url 由用户输入决定，因此由查询字符串决定 ; 问题是变量状态由两个或多个单词组成。因此，当我尝试单击证明表单中输入的超链接时，仅获取状态变量的第一个单词。浏览器将另一个
jquery scrolltofixed 空白
该问题在每个浏览器中的表现都不同，例如在 Firefox 中大约一个空格如果您再次滚动到顶部，则会出现具有相同高度的滚动框。在 chrome 中，滚动时框会变得狭窄等等...... 使用的调用是:
菜单之间的 CSS 空白
我对菜单栏文字之间的 CSS 空白有疑问。我尝试了很多方法，但仍然无法解决。有人可以帮我吗？菜单问题图片如下: http://imageshack.us/photo/my-images/201/44
html - 空白/有文本时插入符号在文本区域中的不同位置
我对有疑问.其中的插入符根据是否为空具有不同的垂直位置: 我的代码: textarea { padding: 0 5px; border: none; outline: n
html - 输入代码中的返回行导致输出中元素之间的间隙/空白？
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Ignore whitespace in HTML 我想在网页上将图片并排放置。这是我的 HTML:
html - 检查元素不工作/空白
每当我尝试检查元素时，什么都没有出现。我在使用 Chrome。我明白了 Elements | Network | Sources | Timeline | Profiles | Resources |
css - 是什么导致了这个双滚动条/空白？
我在使用 Chrome、Firefox 和 IE 时遇到了一个奇怪的问题。我正在为我的投资组合网站/博客构建一个 WordPress 主题，一切都很好，直到今天，当我在 chrome 中查看该网站时，

首页

博学

6Ren·AI

商城

html - 使用 R 抓取带有图像、文本和空白单元格的维基百科 HTML 表格