gpt4 book ai didi

r - 如何从 stackexchange 主页抓取 "table like"数据? (在 R 中)

转载 作者:行者123 更新时间:2023-12-01 09:38:36 25 4
gpt4 key购买 nike

我想抓取一个新的 stackexchange 网站的主页:https://webapps.stackexchange.com/ (只有一次,只有几页,没有什么应该打扰服务器)。如果我想从 stackoverflow 获得它,我知道有一个数据库转储,但对于新的 stackexchange,它们还不存在。

这就是我想做的。

第 1 步:选择网址

URL <- "https://webapps.stackexchange.com/"

第 2 步:阅读表格

readHTMLTable(URL)  # oops, doesn't work - gives NULL

第 2 步:这一次,让我们用 XML 试试吧

htmlTreeParse(URL) # o.k, this reads the data - but it is all in <div> - now what?

所以我能够阅读页面,但现在结构在 div 中。现在如何使用它来创建与 readHTMLTable 相同的东西?

最佳答案

您可以使用 the overflowr package 来执行此操作(使用 StackExchange API)。只需使用 get.questions() 函数并提供站点前缀。它不在 CRAN 上,因为它不完整,但您可以下载并构建它。

library(overflowr)
questions <- get.questions(50)

对于统计网站,前 5 个最近的问题:

questions <- get.questions(top.n=5, site="stats.stackexchange")

顺便说一句,很高兴让更多人参与这个项目,因为我没有更多时间花在这个项目上。 Three of the moderators from Stats.Exchange are currently working on it .

关于r - 如何从 stackexchange 主页抓取 "table like"数据? (在 R 中),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3533334/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com