gpt4 book ai didi

r - 屏幕抓取实际页面而不是使用 R 的源 html

转载 作者:行者123 更新时间:2023-12-02 08:32:59 25 4
gpt4 key购买 nike

我正在尝试使用 R 从该页面中筛选网球结果数据(逐点数据,而不仅仅是最终结果)。

http://www.scoreboard.com/au/match/wang-j-karlovic-i-2014/M1mWYtEF/#point-by-point;1

使用常规的 R 屏幕抓取函数,如 readlines()、htmlParseTree() 等,我能够抓取页面的源 html,但不包含结果数据。

是否可以从页面中抓取所有文本,就像我在浏览器中的页面上并选择所有文本然后复制一样?

最佳答案

该数据是使用 AJAX 从 http://d.scoreboard.com/au/x/feed/d_mh_M1mWYtEF_en-au_1 加载的,因此 R 将无法为您加载它。但是,因为两者都使用代码 M1mWYtEF,您可以直接转到包含所需数据的页面。使用 Chrome 的 devtools,我能够看到该页面发送了一个 X-Fsign: SW9D1eZo 的标题,这将允许您访问该页面(否则您会收到 401 Unauthorized 错误).

这是 R 代码,用于从示例页面获取包含所需数据的 html:

library(httr)
page_code <- "M1mWYtEF"
linked_page <- paste0("http://d.scoreboard.com/au/x/feed/d_mh_",
page_code, "_en-au_1")
GET(linked_page, add_headers("X-Fsign" = "SW9D1eZo"))

关于r - 屏幕抓取实际页面而不是使用 R 的源 html,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24835984/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com