r - 填写网页表格，提交和下载结果-6ren

r - 填写网页表格，提交和下载结果

转载作者：行者123 更新时间：2023-12-01 01:40:33

25

4

我想填一个 web form并提交我的查询并下载结果数据。某些字段可以选择下拉菜单或输入搜索查询，部分也可以留空(如果所有部分都留空，则整个数据库都会下载)，点击“搜索和下载”按钮应该会启动下载文件。

这是我基于 this 尝试过的(选择物种“Salmo salar”的所有记录)题。我使用我的浏览器(Opera)“开发者工具”来检查页面元素并识别所有可能字段的名称:

library(httr)

url <- "https://nzffdms.niwa.co.nz/search"

fd <- list(
  search_catchment_no_name = "",
  search_river_lake = "",
  search_sampling_locality = "",
  search_fishing_method = "",
  search_start_year = "",
  search_end_year = "",
  search_species  = "Salmo salar", # species of interest
  search_download_format = 1,      # select csv file format
  submit = "Search and Download"
)

POST(url, body = fd, encode = "form")

我曾希望这会导致下载一个 csv 文件(物种“Salmo salar”的所有记录)，但没有文件下载(但输出这个(10 个列表，只显示第一位):

Response [https://nzffdms.niwa.co.nz/search]
Date: 2019-10-02 23:35
Status: 200
Content-Type: text/html; charset=utf-8
Size: 19.1 kB
<!DOCTYPE html>  
  <html>  
  <head>  
  <meta http-equiv="Content-Type" content="text/html; c...
    <meta name="title" content="NZ Freshwater Fish Database...
<meta name="description" content="NIWA NZ Freshwater Fish...
<meta name="keywords" content="NIWA, NZ, Freshwater Fish" />
<meta name="language" content="en" />
<meta name="robots" content="index, follow />

...

编辑

我认为问题在于我如何调用 Search and download按钮，在检查网页时，大多数字段如下所示:

# end year field
<input maxlength="4" class="form-control" type="text" name="search[end_year]" id="search_end_year">

但是 search and download按钮元素没有 name或 id选项:

<input type="submit" value="Search and Download" class="btn btn-primary btn-md">

另外我刚刚注意到有一个隐藏字段，也许我需要定义这个？

<input type="hidden" name="search[_csrf_token]" value="d1530f09c1ce8110b5163bd100cb0d67" id="search__csrf_token">

关于如何下载文件的任何建议将不胜感激。

最佳答案

首先，检查 website 上的 robots.txt .已于 2019 年 10 月 3 日注释掉。

然后阅读 https://nzffdms.niwa.co.nz/terms 上的条款和条件和 https://www.niwa.co.nz/freshwater-and-estuaries/nzffd/user-guide/tips并确保您遵守条款和条件。

限制下面的请求也很重要。

检查所有条款和条件后，您可以使用以下代码查询您的数据:

library(httr)
library(xml2)

gr <- GET("https://nzffdms.niwa.co.nz/search")
doc <- read_html(content(gr, "text"))     #doc <- read_html(gr) #this works as well
getTbl <- function(x) {
    do.call(rbind, lapply(xml_find_all(doc, paste0(".//select[@name='search",x,"']/option")),
        function(n) data.frame(NAME=xml_text(n), VALUE=xml_attr(n, "value"))))
}
fishing_method <- getTbl("[fishing_method]")
species <- getTbl("[species][]")
csrf_token <- xml_attr(xml_find_all(doc, ".//input[@name='search[_csrf_token]']"), "value")

fd <- list(
    "search[catchment_no_name]"="",
    "search[river_lake]"="",
    "search[sampling_locality]"="",
    "search[fishing_method]"="",
    "search[species][]"="",
    "search[species][]"=68,
    "search[start_year]"="",
    "search[end_year]"="",
    "search[download_format]"="1",
    "search[_csrf_token]"=csrf_token
)
r <- POST("https://nzffdms.niwa.co.nz/doSearch", body=fd, encode="form")
read.csv(text=content(r, "text", encoding="UTF-8"))

输出:

   card m    y catchname  catch        locality time  org map    east   north altitude penet fishmeth effort pass spcode abund number minl maxl  nzreach
1  3964 1 1981   Waiau R 797.49       Lake Gunn   NA niwa d41 2122400 5581200      477   225      ang     NA   NA salsal    NA     NA   NA   NA 15006671
2  3965 1 1981   Waiau R 797.49     Lake Fergus   NA niwa d41 2123700 5584400      483   229      ang     NA   NA salsal    NA     NA   NA   NA 15006092
3 15975 1 2003   Waiau R 797.40 Excelsior Creek 1330 niwa d44 2095800 5495800      190    94      efp     80    1 salsal    NA      2  102  105 15030686
4 50772 1 1940   Waiau R 797.49 Upukerora River   NA  unk d43 2098500 5519900      210   146      unk     NA   NA salsal    NA     NA   NA   NA 15020897

关于r - 填写网页表格，提交和下载结果，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58159645/

25

4

0

文章推荐： Pandas 组合来自多列的信息，其中值取决于同一行中的值

文章推荐： scala - glClearColor 只显示黑屏

文章推荐： r - 将列向量转换为扩展对角矩阵

java - 填写 MBeanParameterInfo
在 JConsole 的 MBeans 选项卡中查看我的应用程序的 MBean 时，有“属性”和“操作”的子菜单。如果将这些树结构展开到最大程度，然后单击其中一个操作，则右侧面板会显示三个部分:操作调
if-statement - 填写 ={ARRAYFORMULA()} 中的空白单元格
我有一个包含稀疏数据的人性化工作表: PART | FRUIT --------------- Alpha | | Apples | Pears Beta |
python - 填写 Pandas 数据框中缺少的小时数
我有一个包含每小时数据的数据框: area date hour output H1 2018-07-01 07:00:00 150 H1
javascript - 填写 html 表格
假设我有这样的 html 表: 16 3 2 13 5 10
r - 填写 R 数据框中缺失的行
我已经将一些原始数据导入到 R 中，如下所示: 表 1: ID Year Value 01 1999 25 01 2000 12 01 2002
r - 填写 R 数据框中缺失的行
我已经将一些原始数据导入到 R 中，如下所示: 表 1: ID Year Value 01 1999 25 01 2000 12 01 2002
python - 填写 PySpark 中前一天缺失的日期
我在以下问题中遇到了同样的问题: Forward Fill New Row to Account for Missing Dates 不同之处在于，我需要计算两个不同日期之间的小时数差异，例如 201
python - 填写 pandas 数据框中的缺失值
我想填写 pandas 数据框中缺失的值。最佳情况下，我希望分钟列的范围为每小时 0-60。不幸的是，数据生成过程没有记录任何 sub_count = 0 的行。有办法做到这一点吗？我的数据涵盖日期
javascript - 填写 addFullName 函数的代码
基本对象问题我似乎无法全神贯注。我确定我想多了。填写 addFullName 函数的代码。该函数应该: Take one input parameter, a person object. Add a
Android - 填写 html 表单并调用提交
是否可以在没有用户交互的情况下调用 html 表单提交？我知道可以通过 HttpClient 发出发布请求，但这并不能解决我的问题。我需要以编程方式在网页上填写一些表单输入字段，然后“单击”提交按钮
python - 填写 Pandas 数据框中的缺失值
Python 的新手，似乎无法找到我正在寻找的确切答案我相信有更简单的方法来填写此信息我有 df1 和 df2 df1: FirstName LastName PhNo uniqueid df
javascript - 填写 PDF 表格
您好，我有一个需要填写的 PDF 表单。该应用程序向用户(表单)提出问题，提交时应将答案填写到 PDF 空白处以供打印。我熟悉 JS 和 Node(有一段时间没用过)。不使用 PHP。我会在我常去
python - 填写 groupby 的缺失日期
假设我有一个如下所示的数据框: ID DATE VALUE 1 31-01-2006 5 1 28-02-2006 5 1 31
javascript - 填写 4 个字符时自动切换到下一个输入字段
我想做的是，在填写四个字符时指向下一个选项卡。每个字段应有 4 个字符，完成后应移至下一个输入框。 $(".inputs").keyup(function () { if (this
javascript - 检查所有输入字段是否已使用 jQuery 填写
我有 3 个 div，每个都有几个输入字段和下一步按钮。我想编写一个 jQuery 片段，当单击下一个按钮时，它会检查以确保与按钮位于同一 div 内的所有输入字段都不为空。我已经尝试了以下但没有成
java - 填写 "secret word"字母
我正在做一个刽子手项目。我已经让大部分代码正常工作了。我无法工作的部分是“ secret 单词”有多个相同的字母。例如“hello”有 2 个“l”。这是代码部分的代码，如果猜测正确，它将“---
java - 填写 list
拥有抽象对象的集合:Set foes; 我想要一个这样的方法: List getFoesByType(TypeEnum type); 我已经尝试过: List result = new ArrayLi
javascript - scrapy 填写 POST 表单
我正在尝试使用 scrapy 填写 POST 表单，以尝试预订火车票。我以为 FormRequest 类可以做这件事，但我无法处理 javascript 表单。 Scrapy 爬虫什么都不返回。我
python - 填写 numpy ndarray 的最佳方法？
我使用以下代码生成带有渐变的图像。我逐个元素访问数组。有更好的方法吗？谢谢。 import cv2 import numpy as np x = np.ndarray((256,256,3), dty
python - 填写 pandas df 中缺少的日期
我有一个数据对应于数据库列表和差异行，以及它们的使用日期。 DB Dates USAGE ABC 03-06-2018 IN USE

首页

博学

6Ren·AI

商城

r - 填写网页表格，提交和下载结果