gpt4 book ai didi

r - 从网站中提取html表格

转载 作者:行者123 更新时间:2023-12-01 05:40:26 24 4
gpt4 key购买 nike

我正在尝试使用 XML、RCurl 包来读取以下 URL 的一些 html 表
http://www.nse-india.com/marketinfo/equities/cmquote.jsp?key=SBINEQN&symbol=SBIN&flag=0&series=EQ#

这是我正在使用的代码

library(RCurl)
library(XML)
options(RCurlOptions = list(useragent = "R"))
url <- "http://www.nse-india.com/marketinfo/equities/cmquote.jsp?key=SBINEQN&symbol=SBIN&flag=0&series=EQ#"
wp <- getURLContent(url)
doc <- htmlParse(wp, asText = TRUE)
docName(doc) <- url
tmp <- readHTMLTable(doc)
## Required tables
tmp[[13]]
tmp[[14]]

如果您查看表格,则无法解析网页中的值。
我猜这是因为一些 javascipt 评估正在发生。
现在,如果我在 google chrome 中使用“将页面另存为”选项(它在 mozilla 中不起作用)
并保存页面,然后使用上面的代码,我可以读取值。

但是有没有办法让我可以阅读苍蝇的 table ?
如果你能帮忙就太好了。

问候,

最佳答案

看起来他们正在通过访问 http://www.nse-india.com/marketinfo/equities/ajaxGetQuote.jsp?symbol=SBIN&series=EQ 使用 javascript 构建页面。并解析出一些字符串。也许您可以抓取该数据并将其解析出来,而不是抓取页面本身。

不过,看起来您必须使用 cURL 使用正确的引用 header 构建请求。如您所见,您不能仅通过一个简单的请求就访问 ajaxGetQuote 页面。

您可能可以通过在 Chrome 或 Safari 中使用 Web Inspector 或在 Firefox 中使用 Firebug 来读取要放入的适当标题。

关于r - 从网站中提取html表格,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5914626/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com