gpt4 book ai didi

python - Feedparser - 从谷歌阅读器中检索旧消息

转载 作者:太空狗 更新时间:2023-10-29 22:14:28 24 4
gpt4 key购买 nike

我正在使用 python 中的 feedparser 库从本地报纸检索新闻(我的目的是对这个语料库进行自然语言处理)并且希望能够从 RSS 提要中检索许多过去的条目。

我不是很熟悉 RSS 的技术问题,但我认为这应该是可能的(我可以看到,例如,当我移动滚动条时,Google Reader 和 Feedly 可以“按需”执行此操作) .

当我执行以下操作时:

import feedparser

url = 'http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml'
feed = feedparser.parse(url)
for post in feed.entries:
title = post.title

我只收到了十几个条目。我在想几百个。如果可能的话,也许是上个月的所有条目。是否可以仅使用 feedparser 来执行此操作?

我打算从 rss 提要中仅获取新闻项的链接,并使用 BeautifulSoup 解析整个页面以获得我想要的文本。另一种解决方案是使用爬虫程序跟踪页面中的所有本地链接以获取大量新闻条目,但我现在想避免这种情况。

--

出现的一种解决方案是使用 Google 阅读器 RSS 缓存:

http://www.google.com/reader/atom/feed/http://feeds.folha.uol.com.br/folha/emcimadahora/rss091.xml?n=1000

但要访问此内容,我必须登录到 Google 阅读器。任何人都知道我如何从 python 做到这一点? (我真的对网络一无所知,我通常只会搞砸数值微积分)。

最佳答案

您只会收到十几个条目,因为这是提要中包含的内容。如果您想要历史数据,则必须找到所述数据的提要/数据库。

看看这个 ReadWriteWeb article获取有关在网络上查找开放数据的一些资源。

请注意,如您的标题所示,Feedparser 与此无关。 Feedparser 解析你给它的东西。它无法找到历史数据,除非您找到它并将其传递给它。它只是一个解析器。希望这能说明问题! :)

关于python - Feedparser - 从谷歌阅读器中检索旧消息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1676223/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com