- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(以尝试进行一些自然语言处理)。我真的对 XML 一无所知,我只是用一个例子来说明如何使用 feedparser。问题是我无法在从 RSS 提要中获取的字典中找到新闻的内容,只是标题。
我目前尝试使用的代码是这样的:
import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss'
# just some GNews feed - I'll use a specific search later
feed = feedparser.parse(url)
for post in feed.entries:
print post.title
print post.keys()
我在这篇文章中得到的键只是标题、摘要、日期等……没有内容。
这是 Google 新闻的问题还是我做错了什么?有办法吗?
最佳答案
您是否检查过来自 Google 新闻的提要?
每个提要中都有一个根元素,其中包含一堆信息和实际条目字典。这是查看可用内容的肮脏方法:
import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')
print [field for field in d]
据我们所见,我们有一个 entries
字段,它很可能包含 .. 新闻条目!如果你:
import pprint
pprint.pprint(entry for entry in d['entries'])
我们获得了更多信息 :) 这将以 pretty-print 方式向您显示与每个条目相关的所有字段(这就是 pprint 的用途)
因此,要从此提要中获取我们新闻条目的所有标题:
titles = [entry.title for entry in d['entries']
所以,尝试一下。希望这是一个有用的开始
关于python - feedparser 和谷歌新闻,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1671428/
当我尝试将 feedparser 库包含到交互式 Python 环境中时收到错误消息: >>>> import feedparser Traceback (most recent call last)
(所以我正在尝试学习 python。我认为阅读比我更好的人的代码会很好。我决定通读电子邮件模块...) email.feedparser 模块中 Feedparser 类的 init 函数定义为: d
过去一周我一直在使用 feedparser 浏览 RSS 提要。今天使用它时,我的整个程序无法运行,我注意到错误似乎是在程序开始时,当我获取要循环的提要长度时。 因此,例如,如果我要循环浏览 BBC
昨天我安装了 feedparser(在 OSX 10.5 上)并且运行良好,但现在它停止工作了。 这是脚本(从 feedparser 文档中复制) import feedparser d = feed
我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(以尝试进行一些自然语言处理)。我真的对 XML 一无所知,我只是用一个例子来说明如何使用 feed
我是 Feedparser 的新手,经过长时间的休息后又回到了 Python,因此非常感谢任何帮助。我已经尝试过文档,它们非常好,但我仍然有点落后。 我如何让 Feedparser 获取 rss 提要
我正在使用 python 中的 feedparser 库从本地报纸检索新闻(我的目的是对这个语料库进行自然语言处理)并且希望能够从 RSS 提要中检索许多过去的条目。 我不是很熟悉 RSS 的技术问题
我的代码卡在这个函数调用上: feedparser.parse("http://...") 这以前有效。该网址甚至无法在浏览器中打开。你会如何解决这个案子?有超时的可能吗?我想继续,就好像什么都不会发
feedparser 文档曾经在 http://feedparser.org/ 上可用但是 URL 现在说找不到资源并且没有转发地址。 有人知道文档移到了哪里或者我可以在哪里找到文档吗? 此外,使用
我尝试关注 this guide 。这是关于制作一个物理 Gmail 通知程序。当我输入相同的代码时,它发现一个错误: Traceback (most recent call last): Fil
我是第一次使用 python,我有点卡住了。 使用 feedparser 解析 RSS feed,我想获取条目 0 的第一个媒体项的 URL 并将其加载到变量中。 下面的代码似乎可以工作,但我必须按两
我想将如下获得的字符串转换为日期时间: d = feedparser.parse(xmlUrl) t = datetime.strptime(d.feed.updated, "%Y-%m-%dT%H:
我刚开始使用 feedparser,想知道是否有任何方法可以获取自动发现链接列表。 提前致谢。马西莫 最佳答案 feedparser 不能自己做,但是 feedfinder2可以: from feed
feedparser 中是否有一个选项可以只查询比 feed.updated 更新的新条目? 或者您可以设置一个参数以仅获取特定日期/今天/周等的条目吗? (Safari 的 RSS 阅读器提供此选项
对于一个项目,我想使用feedparser 。基本上我已经成功了。 在文档中section about sanitization据描述,并非所有内容类型都经过清理。如何强制 feedparser 对所
#!/usr/bin/python # -*- coding: utf-8 -*- import sys import os import cgi import string import feedp
简而言之,我的情况是这样的: 从 RSS feed 读取数据 将内容打印到终端 当然,内容不是普通的 ascii 格式,而是 utf-8,所以我得到像“öäå”这样的字符。但是当我打印文本时,它全部被
我正在尝试将 feedparser 与 python 结合使用以从 sub_reddit 获取最新的帖子。 我有下面的代码,但是当我运行它时它没有返回任何东西。 import feedparser f
我正在测试 feedparser 在我的 rss 提要上。它就像一个魅力,我得到了所有条目。 一些新闻有一个嵌入的 youtube 播放器,但这并没有出现在 feedparser 的返回值中。 我的代
问题:如何终止实例化或确保我正在创建 python 通用 feedparser 的新实例化? 信息: 我现在正在开发一个程序,可以下载和编目大量博客。除了一个不幸的错误外,它运行良好。我的代码设置为获
我是一名优秀的程序员,十分优秀!