gpt4 book ai didi

asp.net - 使用 R 将更多帖子从 RSS feed 提取到 CSV

转载 作者:行者123 更新时间:2023-12-02 10:25:23 26 4
gpt4 key购买 nike

我正在尝试从以下网址的 RSS 提要中提取数据 http://live.reuters.com/Event/rss.aspx?id=70335 。本质上,我想使用本文中概述的代码提取每篇文章的标题和日期:Parse RSS feed using XML packagin R

代码本身是

 library(XML)
library(RCurl)

###Extracting Data from Reuters
xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335"
script <- getURL(xml.url)
doc <- xmlParse(script)
titles <- xpathSApply(doc,'//item/title',xmlValue)
pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue)
reuters<-cbind(titles, pubdates)
reuters_data<-data.frame(reuters)

#Exporting as a csv
write.csv(reuters_data, file = "reuters_post.csv")

该代码几乎完全符合我的要求。然而,我遇到的问题是它只提取前 45 个帖子。我知道有接近 1000 个帖子。这与 rss.aspx 格式有关系吗?有没有一种解决方法可以让我获取 RSS 源中的所有帖子,而不仅仅是前 45 个帖子?任何帮助将不胜感激,因为我是数据抓取的新手。

谢谢,托马斯

最佳答案

它解决了不允许检索历史信息的 RSS/Atom 提要问题,请参阅 How Do I Fetch All Old Items on an RSS Feed?

但是,我们可以使用非官方的 Google Reader API GoogleReaderAPI Wiki .

library(RCurl)
library(RJSONIO)

N <- 100 # Number of items to fetch
url <- paste("http://www.google.com/reader/api/0/stream/contents/feed/http://live.reuters.com/Event/rss.aspx%3Fid=70335?n=", N, sep="")

json <- getURL(url) # Fetches data
list <- fromJSON(json) # JSON to list
df <- as.data.frame(do.call(rbind, list$items)) # list to data.frame

title <- unlist(df$title) # Title
datetime <- as.POSIXlt(unlist(df$published), origin="1970-01-01", tz="GMT") # Publication date

reuters <- data.frame(title, datetime) # Output data.frame
write.csv(reuters, file = "reuters_post.csv") # Writes CSV

关于asp.net - 使用 R 将更多帖子从 RSS feed 提取到 CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13501688/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com