gpt4 book ai didi

使用 RCurl 检索 URL 提供与浏览器不同的日期格式

转载 作者:行者123 更新时间:2023-12-01 06:36:41 24 4
gpt4 key购买 nike

我正在尝试使用 RCurl 在以下 URL 抓取移动格式的网页:

http://m.fire.tas.gov.au/?pageId=incidentDetails&closed_incident_no=161685

使用此代码:

library(RCurl)
options( RCurlOptions = list(verbose = TRUE, useragent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.A.B.C Safari/525.13"))
inurl <- getURL(http://m.fire.tas.gov.au/?pageId=incidentDetails&closed_incident_no=161685)

请注意,我试图将用户代理设置为看起来像 Chrome 浏览器 - 无论是否这样做,我得到的结果都是一样的。当我在 Chrome 中查看 URL 时,日期格式如下,并带有时间戳:

Screenshot of text on web page

并且 HTML 源代码匹配:
Last Updated: 24-Aug-2009 11:36<br>
First Reported: 24-Aug-2009 11:24<br>

但是在 R 中,在我从 URL 检索数据后,日期的格式如下:
Last Updated: 2009-08-24<br>    
First Reported: 2009-08-24<br>

任何想法这里发生了什么?我认为服务器正在响应浏览器/Curl 的用户代理或区域或语言或类似的东西,并返回不同的数据,但无法弄清楚我需要在 RCurl 的选项中设置什么来更改它。

最佳答案

看起来服务器正在等待 'Accept-Language' header :

library(RCurl)
getURL("http://m.fire.tas.gov.au/?pageId=incidentDetails&closed_incident_no=161685",
httpheader = c("Accept-Language" = "en-US,en;q=0.5"))

为我工作(返回 First Reported: 24-Aug-2009 11:24<br> 等)。我通过使用 HttpFox 发现了这一点火狐插件。

关于使用 RCurl 检索 URL 提供与浏览器不同的日期格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14148596/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com