- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试从 this website 上的代码选项卡中抓取表格(包含 x
和 .
的大表)
我认为以下其中一项可以解决问题......
library(rvest)
library(tidyverse)
"https://international.ipums.org/international-action/variables/MIGYRSBR#codes_section" %>%
read_html() %>%
html_table()
"https://international.ipums.org/international-action/variables/MIGYRSBR#codes_section" %>%
read_html() %>%
html_nodes(".variablesList , #ui-id-1")
...但是没有任何用处返回。我看了一下html文件的来源。我认为该网站正在使用一些 JavaScript 来生成表格?这是否意味着无法获得该表?
注意:我无法在办公室 PC 上安装 RSelenium
最佳答案
我没看到robots.txt
也不是条款和条件,但我确实通读了(相当令人生畏的)“使用受限微数据的应用程序”(我忘记了我有一个可以访问 IPUMS 的帐户,尽管我不记得曾经使用过它)。他们希望在下载之前预先了解其数据的潜在敏感性质的重要性,这给我留下了深刻的印象。
由于此元数据中没有“微数据”(似乎提供元数据是为了帮助人们决定他们可以选择哪些数据元素)并且由于获取和使用它不会违反任何规定的限制,因此以下内容应该没问题。如果 IPUMS 的代表看到这个并且不同意,我将很乐意删除答案并要求 SO 管理员真的也删除它(对于那些不知道的人,具有足够高代表的人可以看到已删除的答案)。
现在,您不需要为此使用 Selenium 或 Splash,但您需要对以下代码检索到的数据进行一些后处理。
构建元数据表的数据位于 <script>
中的 javascript blob 中。标签(使用“查看源代码”查看它,稍后您将需要它)。我们可以使用一些字符串修改和 V8 包来获取它:
library(V8)
library(rvest)
library(jsonlite)
library(stringi)
pg <- read_html("https://international.ipums.org/international-action/variables/MIGYRSBR#codes_section")
html_nodes(pg, xpath=".//script[contains(., 'Less than')]") %>%
html_text() %>%
stri_split_lines() %>%
.[[1]] -> js_lines
idx <- which(stri_detect_fixed(js_lines, '$(document).ready(function() {')) - 1
找到目标 <script>
元素,获取内容,将其转换为行并找到不是数据的第一行。我们只能提取带有数据的 javascript 代码,因为 R 中的 V8 引擎不是一个完整的浏览器,无法执行它之后的 jQuery 代码。
我们现在创建一个“V8 上下文”,提取代码并在所述 V8 上下文中执行它并检索它:
ctx <- v8()
ctx$eval(paste0(js_lines[1:idx], collapse="\n"))
code_data <- ctx$get("codeData")
str(code_data)
## List of 14
## $ jsonPath : chr "/international-action/frequencies/MIGYRSBR"
## $ samples :'data.frame': 6 obs. of 2 variables:
## ..$ name: chr [1:6] "br1960a" "br1970a" "br1980a" "br1991a" ...
## ..$ id : int [1:6] 2416 2417 2418 2419 2420 2651
## $ categories :'data.frame': 100 obs. of 5 variables:
## ..$ id : int [1:100] 4725113 4725114 4725115 4725116 4725117 4725118 4725119 4725120 4725121 4725122 ...
## ..$ label : chr [1:100] "Less than 1 year" "1" "2" "3" ...
## ..$ indent : int [1:100] 0 0 0 0 0 0 0 0 0 0 ...
## ..$ code : chr [1:100] "00" "01" "02" "03" ...
## ..$ general: logi [1:100] FALSE FALSE FALSE FALSE FALSE FALSE ...
## $ longSamplesHeader : chr "<tr class=\"fullHeader grayHeader\">\n\n <th class=\"codesColumn\">Code</th>\n <th class=\"la"| __truncated__
## $ samplesHeader : chr "\n<tr class=\"fullHeader grayHeader\">\n <th class=\"codesColumn\">Code</th>\n <th class=\"labelColum"| __truncated__
## $ showCounts : logi FALSE
## $ generalWidth : int 2
## $ width : int 2
## $ interval : int 25
## $ isGeneral : logi FALSE
## $ frequencyType : NULL
## $ project_uses_survey_groups: logi FALSE
## $ variables_show_tab_1 : chr ""
## $ header_type : chr "short"
jsonPath
组件建议它在构建代码和频率表时使用更多数据,因此我们也可以获取它:
code_json <- fromJSON(sprintf("https://international.ipums.org%s", code_data$jsonPath))
str(code_json, 1)
## List of 6
## $ 2416:List of 100
## $ 2417:List of 100
## $ 2418:List of 100
## $ 2419:List of 100
## $ 2420:List of 100
## $ 2651:List of 100
那些“100 的列表”是每个 100 个数字。
您需要查看“查看源代码”中的代码(如上所述),了解如何使用这两位数据重新创建元数据表。
我确实认为您最好遵循@alistaire 开始的路径,但完全 遵循它。我在论坛 (http://answers.popdata.org/) 中没有看到关于获取“代码和频率”或“元数据”(例如这个)的问题,并且至少阅读了 5 个地方,IPUMS 工作人员在论坛和他们的论坛中阅读和回答问题信息-电子邮件地址:ipums@umn.edu
.
他们显然以电子方式在某处拥有此元数据,并且可能会为您提供所有数据产品的完整转储以避免进一步抓取(我猜这是您的目标,因为我无法想象人们想要经历的场景一个摘录就麻烦了)。
关于javascript - 使用 JavaScript 生成的表格的 Web 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46763207/
我有一个 html 格式的表单: 我需要得到 JavaScript在value input 字段执行,但只能通过表单的 submit .原因是页面是一个模板所以我不控制它(不能有
我管理的论坛是托管软件,因此我无法访问源代码,我只能向页面添加 JavaScript 来实现我需要完成的任务。 我正在尝试用超链接替换所有页面上某些文本关键字的第一个实例。我还根据国家/地区代码对这些
我正在使用 JS 打开新页面并将 HTML 代码写入其中,但是当我尝试使用 document.write() 在新页面中编写 JS 时功能不起作用。显然,一旦看到 ,主 JS 就会关闭。用于即将打开的
提问不是为了解决问题,提问是为了更好地理解系统 专家!我知道每当你将 javascript 代码输入 javascript 引擎时,它会立即由 javascript 引擎执行。由于没有看过Engi
我在一个文件夹中有两个 javascript 文件。我想将一个变量的 javascript 文件传递到另一个。我应该使用什么程序? 最佳答案 window.postMessage用于跨文档消息。使
我有一个练习,我需要输入两个输入并检查它们是否都等于一个。 如果是 console.log 正则 console.log false 我试过这样的事情: function isPositive(fir
我正在做一个Web应用程序,计划允许其他网站(客户端)在其页面上嵌入以下javascript: 我的网络应用程序位于 http://example.org 。 我不能假设客户端网站的页面有 JQue
目前我正在使用三个外部 JS 文件。 我喜欢将所有三个 JS 文件合而为一。 尽一切可能。我创建 aio.js 并在 aio.js 中 src="https://code.jquery.com/
我有例如像这样的数组: var myArray = []; var item1 = { start: '08:00', end: '09:30' } var item2 = {
所以我正在制作一个 Chrome 扩展,它使用我制作的一些 TamperMonkey 脚本。我想要一个“主”javascript 文件,您可以在其中包含并执行其他脚本。我很擅长使用以下行将其他 jav
我有 A、B html 和 A、B javascript 文件。 并且,如何将 A JavaScript 中使用的全局变量直接移动到 B JavaScript 中? 示例 JavaScript) va
我需要将以下整个代码放入名为 activate.js 的 JavaScript 中。你能告诉我怎么做吗? var int = new int({ seconds: 30, mark
我已经为我的 .net Web 应用程序创建了母版页 EXAMPLE1.Master。他们的 I 将值存储在 JavaScript 变量中。我想在另一个 JS 文件中检索该变量。 示例1.大师:-
是否有任何库可以用来转换这样的代码: function () { var a = 1; } 像这样的代码: function () { var a = 1; } 在我的浏览器中。因为我在 Gi
我收到语法缺失 ) 错误 $(document).ready(function changeText() { var p = document.getElementById('bidp
我正在制作进度条。它有一个标签。我想调整某个脚本完成的标签。在找到可能的解决方案的一些答案后,我想出了以下脚本。第一个启动并按预期工作。然而,第二个却没有。它出什么问题了?代码如下: HTML:
这里有一个很简单的问题,我简单的头脑无法回答:为什么我在外部库中加载时,下面的匿名和onload函数没有运行?我错过了一些非常非常基本的东西。 Library.js 只有一行:console.log(
我知道 javascript 是一种客户端语言,但如果实际代码中嵌入的 javascript 代码以某种方式与在控制台上运行的代码不同,我会尝试找到答案。让我用一个例子来解释它: 我想创建一个像 Mi
我如何将这个内联 javascript 更改为 Unobtrusive JavaScript? 谢谢! 感谢您的回答,但它不起作用。我的代码是: PHP js文件 document.getElem
我正在寻找将简单的 JavaScript 对象“转储”到动态生成的 JavaScript 源代码中的最优雅的方法。 目的:假设我们有 node.js 服务器生成 HTML。我们在服务器端有一个对象x。
我是一名优秀的程序员,十分优秀!