python - feedparser 和谷歌新闻-6ren

python - feedparser 和谷歌新闻

转载作者：太空狗更新时间：2023-10-30 02:06:41

30

4

我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(以尝试进行一些自然语言处理)。我真的对 XML 一无所知，我只是用一个例子来说明如何使用 feedparser。问题是我无法在从 RSS 提要中获取的字典中找到新闻的内容，只是标题。

我目前尝试使用的代码是这样的:

import feedparser
url = 'http://news.google.com.br/news?pz=1&cf=all&ned=us&hl=en&output=rss' 
# just some GNews feed - I'll use a specific search later

feed = feedparser.parse(url)
for post in feed.entries:
   print post.title
   print post.keys()

我在这篇文章中得到的键只是标题、摘要、日期等……没有内容。

这是 Google 新闻的问题还是我做错了什么？有办法吗？

最佳答案

您是否检查过来自 Google 新闻的提要？

每个提要中都有一个根元素，其中包含一堆信息和实际条目字典。这是查看可用内容的肮脏方法:

import feedparser
d = feedparser.parse('http://news.google.com/news?pz=1&cf=all&ned=ca&hl=en&topic=w&output=rss')

print [field for field in d]

据我们所见，我们有一个 entries 字段，它很可能包含 .. 新闻条目!如果你:

import pprint
pprint.pprint(entry for entry in d['entries'])

我们获得了更多信息 :) 这将以 pretty-print 方式向您显示与每个条目相关的所有字段(这就是 pprint 的用途)

因此，要从此提要中获取我们新闻条目的所有标题:

titles = [entry.title for entry in d['entries']

所以，尝试一下。希望这是一个有用的开始

关于python - feedparser 和谷歌新闻，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1671428/

30

4

0

文章推荐： python - 如何在启动时运行 Django 开发服务器？

文章推荐： python - 在 SIGINT 后保存工作

文章推荐： python - 您可以只与子流程通信一次吗？

python feedparser ImportError : No module named feedparser
当我尝试将 feedparser 库包含到交互式 Python 环境中时收到错误消息: >>>> import feedparser Traceback (most recent call last)
python - 了解 python 2.7 email.feedparser Feedparser __init__ 函数
(所以我正在尝试学习 python。我认为阅读比我更好的人的代码会很好。我决定通读电子邮件模块...) email.feedparser 模块中 Feedparser 类的 init 函数定义为: d
Python feedparser 不返回任何条目
过去一周我一直在使用 feedparser 浏览 RSS 提要。今天使用它时，我的整个程序无法运行，我注意到错误似乎是在程序开始时，当我获取要循环的提要长度时。因此，例如，如果我要循环浏览 BBC
python - Feedparser 停止工作
昨天我安装了 feedparser(在 OSX 10.5 上)并且运行良好，但现在它停止工作了。这是脚本(从 feedparser 文档中复制) import feedparser d = feed
python - feedparser 和谷歌新闻
我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(以尝试进行一些自然语言处理)。我真的对 XML 一无所知，我只是用一个例子来说明如何使用 feed
python - Feedparser-基础如何
我是 Feedparser 的新手，经过长时间的休息后又回到了 Python，因此非常感谢任何帮助。我已经尝试过文档，它们非常好，但我仍然有点落后。我如何让 Feedparser 获取 rss 提要
python - Feedparser - 从谷歌阅读器中检索旧消息
我正在使用 python 中的 feedparser 库从本地报纸检索新闻(我的目的是对这个语料库进行自然语言处理)并且希望能够从 RSS 提要中检索许多过去的条目。我不是很熟悉 RSS 的技术问题
python - 带超时的 feedparser
我的代码卡在这个函数调用上: feedparser.parse("http://...") 这以前有效。该网址甚至无法在浏览器中打开。你会如何解决这个案子？有超时的可能吗？我想继续，就好像什么都不会发
rss - 在哪里可以找到 feedparser 文档？
feedparser 文档曾经在 http://feedparser.org/ 上可用但是 URL 现在说找不到资源并且没有转发地址。有人知道文档移到了哪里或者我可以在哪里找到文档吗？此外，使用
python - Feedparser - KeyError : 'fullcount'
我尝试关注 this guide 。这是关于制作一个物理 Gmail 通知程序。当我输入相同的代码时，它发现一个错误: Traceback (most recent call last): Fil
Python feedparser 返回第一个条目中第一个媒体项的 URL
我是第一次使用 python，我有点卡住了。使用 feedparser 解析 RSS feed，我想获取条目 0 的第一个媒体项的 URL 并将其加载到变量中。下面的代码似乎可以工作，但我必须按两
python - 将字符串从 feedparser 转换为日期时间
我想将如下获得的字符串转换为日期时间: d = feedparser.parse(xmlUrl) t = datetime.strptime(d.feed.updated, "%Y-%m-%dT%H:
python - 使用通用提要解析器 (feedparser) 获取自动发现链接
我刚开始使用 feedparser，想知道是否有任何方法可以获取自动发现链接列表。提前致谢。马西莫最佳答案 feedparser 不能自己做，但是 feedfinder2可以: from feed
python - Feedparser 日期参数/时间特定查询
feedparser 中是否有一个选项可以只查询比 feed.updated 更新的新条目？或者您可以设置一个参数以仅获取特定日期/今天/周等的条目吗？ (Safari 的 RSS 阅读器提供此选项
python - 强制 feedparser 清理所有内容类型
对于一个项目，我想使用feedparser 。基本上我已经成功了。在文档中section about sanitization据描述，并非所有内容类型都经过清理。如何强制 feedparser 对所
Python/feedparser 脚本不会显示在 CGI/字符编码上
#!/usr/bin/python # -*- coding: utf-8 -*- import sys import os import cgi import string import feedp
Python 2.7 编码和 feedparser
简而言之，我的情况是这样的: 从 RSS feed 读取数据将内容打印到终端当然，内容不是普通的 ascii 格式，而是 utf-8，所以我得到像“öäå”这样的字符。但是当我打印文本时，它全部被
python - reddit 的 feedparser 返回空
我正在尝试将 feedparser 与 python 结合使用以从 sub_reddit 获取最新的帖子。我有下面的代码，但是当我运行它时它没有返回任何东西。 import feedparser f
python - feedparser 无法获取 youtube 播放器
我正在测试 feedparser 在我的 rss 提要上。它就像一个魅力，我得到了所有条目。一些新闻有一个嵌入的 youtube 播放器，但这并没有出现在 feedparser 的返回值中。我的代
python - 不需要的 python feedparser 实例化遗迹
问题:如何终止实例化或确保我正在创建 python 通用 feedparser 的新实例化？信息: 我现在正在开发一个程序，可以下载和编目大量博客。除了一个不幸的错误外，它运行良好。我的代码设置为获

首页

博学

6Ren·AI

商城

python - feedparser 和谷歌新闻