r - 在R中导入Wikipedia表-6ren

r - 在R中导入Wikipedia表

转载作者：行者123 更新时间：2023-12-03 19:58:28

25

4

我定期从Wikipedia中提取表格。 Excel的Web导入不适用于Wikipedia，因为它将整个页面视为表格。在Google电子表格中，我可以输入以下内容：

=ImportHtml("http://en.wikipedia.org/wiki/Upper_Peninsula_of_Michigan","table",3)

然后该功能将从该页面下载第3张表格，该表格列出了密歇根州UP的所有县。

R中有类似的东西吗？或可以通过用户定义的函数创建？

最佳答案

软件包readHTMLTable中的功能XML是理想的选择。

尝试以下方法：

library(XML)
doc <- readHTMLTable(
         doc="http://en.wikipedia.org/wiki/Upper_Peninsula_of_Michigan")

doc[[6]]

            V1         V2                 V3                              V4
1       County Population Land Area (sqÂ mi) Population Density (per sqÂ mi)
2        Alger      9,862                918                            10.7
3       Baraga      8,735                904                             9.7
4     Chippewa     38,413               1561                            24.7
5        Delta     38,520               1170                            32.9
6    Dickinson     27,427                766                            35.8
7      Gogebic     17,370               1102                            15.8
8     Houghton     36,016               1012                            35.6
9         Iron     13,138               1166                            11.3
10    Keweenaw      2,301                541                             4.3
11        Luce      7,024                903                             7.8
12    Mackinac     11,943               1022                            11.7
13   Marquette     64,634               1821                            35.5
14   Menominee     25,109               1043                            24.3
15   Ontonagon      7,818               1312                             6.0
16 Schoolcraft      8,903               1178                             7.6
17       TOTAL    317,258             16,420                            19.3

readHTMLTable返回HTML页面的每个元素的 data.frame列表。您可以使用 names获取有关每个元素的信息：

> names(doc)
 [1] "NULL"                                                                               
 [2] "toc"                                                                                
 [3] "Election results of the 2008 Presidential Election by County in the Upper Peninsula"
 [4] "NULL"                                                                               
 [5] "Cities and Villages of the Upper Peninsula"                                         
 [6] "Upper Peninsula Land Area and Population Density by County"                         
 [7] "19th Century Population by Census Year of the Upper Peninsula by County"            
 [8] "20th & 21st Centuries Population by Census Year of the Upper Peninsula by County"   
 [9] "NULL"                                                                               
[10] "NULL"                                                                               
[11] "NULL"                                                                               
[12] "NULL"                                                                               
[13] "NULL"                                                                               
[14] "NULL"                                                                               
[15] "NULL"                                                                               
[16] "NULL"

关于r - 在R中导入Wikipedia表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7407735/

25

4

0

文章推荐： graphite - Graphite 值(value)的积累

文章推荐： multithreading - Haskell 中的随机数生成器是线程安全的吗？

文章推荐： qmake - 使用 Qt 编译项目后将文件复制到构建目录

文章推荐： embedded - 什么是陷阱？

wikipedia - 在 Wikipedia Dump 中查找和下载图像
我正在尝试在维基百科上找到所有图像的完整列表，然后我可以将其过滤到公共(public)领域的图像。我已经从这里下载了 SQL 转储: http://dumps.wikimedia.org/enwiki
wikipedia-api - 拉萨 : ModuleNotFoundError: No module named 'wikipedia'
我正在学习使用 rasa 语言。为了使目标的答案多样化，我决定使用 Wikipedia api。为了创建我的工作环境，我使用带有以下命令的 anaconda: conda create --name
wikipedia - wikipedia Pageid 到 wikidata id 映射是否有任何转储？
本页:http://wikidata.dbpedia.org/downloads/20160111/ 有一个名为 wikidatawiki-20160111-page-ids.ttl.bz2 的转储
wikipedia-api - 如何通过 MediaWiki API 从 Wikipedia 文章中获取信息框？
这个问题已经有答案了: How to get the Infobox data from Wikipedia? (8 个回答) 已关闭 3 年前。维基百科文章可能有信息框模板。通过以下调用，我可以获
wikipedia-api - 如何从 Wikipedia API 获得超过默认的 10 个结果？
我正在使用 Wikipedia API，在其中获取我输入的某些字符串的图像。它总是返回 10 个结果，但我想要超过大约 50 个。 https://en.wikipedia.org/w/api.ph
wikipedia - 从 dbpedia(或 wikipedia)提取 "external links"数据的最快方法是什么？
我需要从 jquery(首选)或 php 数组中的特定维基百科文章获取“外部链接”链接。我已经浏览了维基百科 api，但似乎没有办法做到这一点。看起来 dbpedia 有一种方法可以做到这一点(dbp
python-2.7 - 使用 python Wikipedia API 访问 Wikipedia Infobox 图像
我想在 python 程序中访问给定文章标题的维基百科信息框图像。有人可以告诉我如何获得吗？以下截图提供了页面中所有图像的列表。我只想访问信息框图像。我该怎么做？ import wikipedia
wikipedia - 如何从维基百科页面中提取所有引用数据？
给定维基百科上的任何页面，例如 Coffee 的页面，我试图弄清楚如何提取页面上所有引用(包括任何元数据)的列表。乍一看，这似乎很容易，因为大多数页面都将它们全部列在称为“引用”的部分下。但是，当您检
wikipedia - 如何下载和使用维基百科数据转储？
我想计算特定语言的 wiki 转储中的实体/类别，比如英语。对于初学者来说，很难找到/遵循官方文档。到目前为止我所了解的是我可以下载一个 XML 转储(我从所有可用的不同文件中下载什么)，并解析它(？
wikipedia - 如何仅使用页面链接找到维基百科页面的类别？
是否有任何 API 可以使用该页面的标题或页面 ID 或 url 获取页面的所有类别？我尝试在网上搜索，但我能找到的只是获取特定类别的转储。任何形式的帮助将不胜感激。谢谢最佳答案您正在寻找的 A
wikipedia - 什么是在Wikipedia上创建几何图形的工具
Closed. This question is off-topic。它当前不接受答案。想要改善这个问题吗？ Update the question，所以它是用于堆栈溢出的on-topic。 9年前
wikipedia - 如何建立维基百科类别层次结构？
我正在尝试构建维基百科文章及其类别的树形图。我需要做什么？从这个站点(http://dumps.wikimedia.org/enwiki/latest/)，我下载了: enwiki-latest-p
wikipedia - 如何使用维基百科api中的page_id获取页面实际内容？
我使用 Wikipedia API 检索给定类别的页面列表。然而，页面由它们的 page_id 表示。如何使用 Wikipedia API 通过 page_id 获取页面的实际文本内容最佳答案 AF
wikipedia - 从Wikipedia检索音乐艺术家数据？
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
wikipedia - 如何将Freebase查询转换为Wikidata查询？
以这个Freebase查询为例，如何使用Wikidata API运行相同的查询？ [{ "id": null, "name": null, "type": "/film/film",
wikipedia - 如何按给定日期检索维基百科文章的历史版本？
有没有一种方法可以使用 MediaWiki API 或任何其他工具自动检索使用大概日期的维基百科文章的先前版本(不知道 'oldid' 值)？例如，我如何检索 history version of
wikipedia - 我如何从Wikipedia中获取有关人员的所有文章？
从Wikipedia获取有关人员的所有文章的最简单方法是什么？我知道我可以下载所有页面的转储，但是然后如何过滤这些页面并仅获取有关人员的页面？我需要尽可能多的东西（最好超过一百万），因此使用任何一种A
wikipedia - 如何从维基百科信息框中提取信息？
有这个花哨的infobox在中。如何获得的值？最佳答案错误的方法:尝试解析 HTML Use (cURL/jQuery/file_get_contents/requests/wget/mor
wikipedia - 以编程方式检索所有维基百科语言的列表
我需要检索某个 wiki 项目的所有现有语言的列表。例如，所有 Wikivoyage或全部Wikipedia语言，就像他们的登陆页面一样。如果可能的话，我更喜欢通过 MediaWiki API 来完
wikipedia - 如何找到旧的维基百科转储
我需要访问非常旧的法语维基百科转储(维基百科的备份)。我成功地从 archive.org 找到了 2010 年的备份，现在我正在搜索 2006 年甚至更早的版本。我知道在最新的转储中包含以前的所有数据

首页

博学

6Ren·AI

商城

r - 在R中导入Wikipedia表