gpt4 book ai didi

java - HTML/JAVA 抓取

转载 作者:太空宇宙 更新时间:2023-11-04 13:31:21 24 4
gpt4 key购买 nike

在 R 中从该页面抓取投注预测的最佳方式是什么?

http://www.racingpost.com/horses2/cards/card.sd?race_id=632478&r_date=2015-08-24#raceTabs=sc_

我已经尝试过这个:

CardURL = getURL(paste("http://www.racingpost.com/horses2/cards/card.sd?race_id=",race_id,"&r_date=",r_date,"#raceTabs=sc_")) 

doc = (htmlParse(CardURL, asText=TRUE))

plain.text = data.frame(xpathSApply(doc, "//p", xmlValue))

但它不会显示投注预测,因为您需要登录(上午 9 点之前)。有没有办法使用成员(member)凭据/自动登录来抓取页面? htmlParse 是抓取该网页的最佳方式吗?

最佳答案

curl 和 httr 是提供 http 客户端功能的出色软件包。这篇 rbloggers 文章提供了很好的介绍,以及 curl 小插图的链接:http://www.r-bloggers.com/the-curl-package-a-modern-r-interface-to-libcurl/

我认为这对您来说可能是一个更好的解决方案,因为该包将能够一起处理身份验证和解析。

关于java - HTML/JAVA 抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32175438/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com