- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 R 中 RCurl 包的 getURL 函数从 API 中抓取页面上的数据。我的问题是,当我在 Chrome 中打开 URL 时,我无法复制得到的响应本质上,当我在 Chrome 中打开 API 页面(下面的 URL)时,它工作正常,但如果我在 R 中使用 getURL(或在 Chrome 中使用隐身模式)请求它,我会收到“500 内部服务器错误”响应,并且不是我正在寻找的漂亮 JSON。
这是我在 [R] 中的(失败的)请求。
test2 <- fromJSON(getURL("http://www.bluenile.com/api/public/loose-diamond/diamond-details/panel?country=USA¤cy=USD&language=en-us&productSet=BN&sku=LD04077082", ssl.verifypeer = FALSE, useragent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 Safari/537.36"))
到目前为止我的研究首先,我在堆栈上查看了之前的问题,并将我的用户代理添加到请求中(没有解决问题,但可能仍然有必要): ViralHeat API issues with getURL() command in RCurl package
接下来我看了这篇有用的文章,它指导了我的理由: R Disparity between browser and GET / getURL
我对解决方案的想法这不是我的专业领域,但我的猜测是该请求缺少完成请求所需的 cookie(因此它在我的浏览器中的隐身模式下不起作用)。我比较了成功请求和不成功请求的请求和响应:
请求成功:
请求失败:
大家有什么想法吗?我应该尝试使用 MrFlick 在我发表的第二篇文章中建议的包 RSelenium
包吗?
最佳答案
这是一个有礼貌的网站。它想知道您来自哪里、使用什么货币等,以便为您提供更好的用户体验。它通过在登陆页面上设置大量 cookie 来实现这一点。因此,我们效仿并导航到登陆页面,首先获取 cookie,然后转到我们想要的页面:
library(RCurl)
myURL <- "http://www.bluenile.com/api/public/loose-diamond/diamond-details/panel?country=USA¤cy=USD&language=en-us&productSet=BN&sku=LD04077082"
agent="Mozilla/5.0 (Windows NT 6.3; WOW64; rv:32.0) Gecko/20100101 Firefox/32.0"
#Set RCurl pars
curl = getCurlHandle()
curlSetOpt(cookiejar="cookies.txt", useragent = agent, followlocation = TRUE, curl=curl)
firstPage <- getURL("http://www.bluenile.com", curl=curl)
myPage <- getURL(myURL, curl = curl)
library(RJSONIO)
> names(fromJSON(myPage))
[1] "diamondDetailsHeader" "diamondDetailsBodies" "pageMetadata" "expandedUrl"
[5] "newVersion" "multiDiamond"
和cookie:
> getCurlInfo(curl)$cookielist
[1] ".bluenile.com\tTRUE\t/\tFALSE\t2412270275\tGUID\tDA5C11F5_E468_46B5_B4E8_D551D4D6EA4D"
[2] ".bluenile.com\tTRUE\t/\tFALSE\t1475342275\tsplit\tver~3&presetFilters~TEST"
[3] ".bluenile.com\tTRUE\t/\tFALSE\t1727630275\tsitetrack\tver~2&jse~0"
[4] ".bluenile.com\tTRUE\t/\tFALSE\t1425230275\tpop\tver~2&china~false&french~false&ie~false&internationalSelect~false&iphoneApp~false&survey~false&uae~false"
[5] ".bluenile.com\tTRUE\t/\tFALSE\t1475342275\tdsearch\tver~6&newUser~true"
[6] ".bluenile.com\tTRUE\t/\tFALSE\t1443806275\tlocale\tver~1&country~IRL¤cy~EUR&language~en-gb&productSet~BNUK"
[7] ".bluenile.com\tTRUE\t/\tFALSE\t0\tbnses\tver~1&ace~false&isbml~false&fbcs~false&ss~0&mbpop~false&sswpu~false&deo~false"
[8] ".bluenile.com\tTRUE\t/\tFALSE\t1727630275\tbnper\tver~5&NIB~0&DM~-&GUID~DA5C11F5_E468_46B5_B4E8_D551D4D6EA4D&SESS-CT~1&STC~32RPVK&FB_MINI~false&SUB~false"
[9] "#HttpOnly_www.bluenile.com\tFALSE\t/\tFALSE\t0\tJSESSIONID\tB8475C3AEC08205E5AC6252C94E4B858"
[10] ".bluenile.com\tTRUE\t/\tFALSE\t1727630278\tmigrationstatus\tver~1&redirected~false"
关于r - 'RCurl' [R] 抓取 API 时包 getURL 网页错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26165656/
我尝试了多种方法来安装 RCurl,但无济于事。我在我的输出中得到了这个: * installing *source* package 'RCurl' ... ** package 'RCur
我在获取 RCurl 函数 getURL 以访问使用自签名证书的服务器上的 HTTPS URL 时遇到问题。我在 Mac OS X 10.9.2 上运行 R 3.0.2。 我已阅读FAQ和 curl
我正在尝试定期列出 MODIS 全局蒸散项目 (MOD16) 的 FTP 服务器上托管的文件。 ## required package library(RCurl) ## ftp server ch_
我想使用 RCurl 作为礼貌的网络爬虫从网站下载数据。显然我需要科学研究的数据。虽然我有权通过我的大学访问该网站的内容,但该网站的使用条款禁止使用网络爬虫。 我试图直接向网站管理员询问数据,但他们只
这些 Curl 文档:http://curl.haxx.se/docs/manpage.html#-d列出许多 bool 选项。 如何在 RCurl 的 postForm 调用中指定这些选项?例如,如
我有以下要求 library(RCurl) res=getURL("http://www.google.com/search?hl=en&lr=&ie=ISO-8859-1&q=RCurl&btnG=
我想使用RCurl登录网站并从网上抓取数据(不登录就看不到数据。) 我想在使用 RCurl 登录后将此(例如)“http://www.appannie.com/app/ios/instagram/ra
看起来我们在 RCurl 中遇到了错误。方法 getURL 似乎正在泄漏内存。这里给出了一个重现错误的简单测试用例: library(RCurl) handle<-getCurlHandle() ra
我最初询问 this question 关于使用 httr 包执行此任务,但我认为使用 httr 是不可能的。所以我重新编写了我的代码以使用 RCurl 代替 - 但我仍然被一些可能与 writefu
有没有办法在 R session 中查看 curl 选项的当前设置? 我的问题是我在代理后面,必须设置代理选项才能使连接正常工作,并且在调用 listMarts() 函数(来自 biomaRt 库,使
我正在尝试在 OS X 10.12.6 上安装 RCurl,但出现以下错误: Error: package or namespace load failed for ‘RCurl’ in dyn.lo
以下是一个脚本,用于重现我在使用执行并发请求的 RCurl 构建爬虫时所面临的问题。 目标是下载数千个网站的内容以进行统计分析。因此,解决方案应该扩展。 library(RCurl) library(
我在Kubuntu14.04上安装了新版本的RStudio(即0.99最新版本)。当尝试上传 Shiny 的应用程序时,我收到一条消息,显示“必须安装 RCurl 和其他几个软件包” - 此安装失败,
使用 R.exe 或 Rterm.exe,这提供了一个极好的进度表。 page=getURL(url="ftp.wcc.nrcs.usda.gov", noprogress=FALSE) 在 Rgui
相关问题: RCurl errors when fetching ssl endpoint R: Specify SSL version in Rcurl getURL statement 我正在查看
我正在尝试使用 Clearbit.com 的免费 Logo API ( https://logo.clearbit.com/:domain ) 下载一些公司 Logo 。 要试用该工具,只需粘贴 ht
感兴趣的 URL 是: http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&Sect2=HITOFF&u=/netahtml/PTO/search
如何转换此命令: curl -v -u abcdefghij1234567890:X -H "Content-Type: application/json" -X GET 'https://domai
我想直接将与关键字相关的数据下载到 R 中或从 R 中下载。我知道 RCurl 很可能是可行的方法,但我不确定如何继续执行该任务。也许这里有人可以让我走上正轨? 附言。随着答案的涌入,我可能会稍微编辑
如何使用 RCurl(或 Curl,我可以将其调整为 R 包)登录到 mediawiki? 我只想解析一个页面,但我需要登录,否则我无法访问它。 最佳答案 Mediawiki API 有一个登录函数,
我是一名优秀的程序员,十分优秀!