gpt4 book ai didi

python - feedparser 和谷歌新闻

转载 作者:太空狗 更新时间:2023-10-30 02:06:41 29 4
gpt4 key购买 nike

我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(以尝试进行一些自然语言处理)。我真的对 XML 一无所知,我只是用一个例子来说明如何使用 feedparser。问题是我无法在从 RSS 提要中获取的字典中找到新闻的内容,只是标题。

我目前尝试使用的代码是这样的:

import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss'
# just some GNews feed - I'll use a specific search later

feed = feedparser.parse(url)
for post in feed.entries:
print post.title
print post.keys()

我在这篇文章中得到的键只是标题、摘要、日期等……没有内容。

这是 Google 新闻的问题还是我做错了什么?有办法吗?

最佳答案

您是否检查过来自 Google 新闻的提要?

每个提要中都有一个根元素,其中包含一堆信息和实际条目字典。这是查看可用内容的肮脏方法:

import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')

print [field for field in d]

据我们所见,我们有一个 entries 字段,它很可能包含 .. 新闻条目!如果你:

import pprint
pprint.pprint(entry for entry in d['entries'])

我们获得了更多信息 :) 这将以 pretty-print 方式向您显示与每个条目相关的所有字段(这就是 pprint 的用途)

因此,要从此提要中获取我们新闻条目的所有标题:

titles = [entry.title for entry in d['entries']

所以,尝试一下。希望这是一个有用的开始

关于python - feedparser 和谷歌新闻,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1671428/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com