python - 为什么 Python 的 feedparser 看不到 feed 中的所有元素-6ren

python - 为什么 Python 的 feedparser 看不到 feed 中的所有元素

转载作者：太空宇宙更新时间：2023-11-03 18:25:43

24

4

我使用以下代码:

import feedparser as fp

if __name__ == '__main__':
    url = 'http://www.careerbuilder.de/RTQ/rss20.aspx?rssid=RSS_PD&num=25&geoip=false&ddcompany=false&ddtitle=false&cat=JN038'  
    d = fp.parse(url)
    for entry in d.entries:
        print entry
        print '----------------------'

结果我得到:

{'guidislink': 0, 'published': u'Wed, 23 Apr 2014 04:00:00 Z', 'published_parsed': time.struct_time(tm_year=2014, tm_mon=4, tm_mday=23, tm_hour=4, tm_min=0, tm_sec=0, tm_wday=2, tm_yday=113, tm_isdst=0), 'title': u'Bankkaufmann (m/w)'}
----------------------
{'guidislink': 0, 'published': u'Wed, 23 Apr 2014 04:00:00 Z', 'published_parsed': time.struct_time(tm_year=2014, tm_mon=4, tm_mday=23, tm_hour=4, tm_min=0, tm_sec=0, tm_wday=2, tm_yday=113, tm_isdst=0), 'title': u'Anlagenbuchhalter (m/w)'}
----------------------
{'guidislink': 0, 'published': u'Wed, 23 Apr 2014 04:00:00 Z', 'published_parsed': time.struct_time(tm_year=2014, tm_mon=4, tm_mday=23, tm_hour=4, tm_min=0, tm_sec=0, tm_wday=2, tm_yday=113, tm_isdst=0), 'title': u'Bankkaufleute (m/w)'}
----------------------

提要中的条目似乎没有“摘要”和“链接”元素。作为确认，如果我尝试使用 entry.summary 或 entry.description，我会收到一条错误消息。这对我来说很奇怪，因为如果我在浏览器中打开 feed，我确实会在 xml 中看到 link 和 description 元素。

有人知道我做错了什么吗？

最佳答案

来自revision history of feedparser :

Universal Feed Parser 3.0b18 was released on February 17, 2004.

always map description to summary_detail (Andrei)

use libxml2 (if available)

来自 here

Some RSS feeds use guid when they mean link. guid can also be used as an opaque identifier that has nothing to do with links. If an RSS feed uses guid as the entry link and no link is present, Universal Feed Parser detects this and makes the guid available in d.entries[i].link.

也许这就是为什么我可以访问 entry.link 和 entry.description 而没有任何错误，尽管 print entry.keys() 给出

['summary_detail', 'published_parsed', 'links', 'title', 'summary', 'guidislink', 'title_detail', 'link', 'published', 'id']

关于python - 为什么 Python 的 feedparser 看不到 feed 中的所有元素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23260644/

24

4

0

文章推荐： python - 在Python中迭代列表并连接字母顺序

文章推荐： jquery - Safari 在使用 jQuery Masonry 时忽略边距

文章推荐： html - CSS column-count 选择第一列和最后一列

python feedparser ImportError : No module named feedparser
当我尝试将 feedparser 库包含到交互式 Python 环境中时收到错误消息: >>>> import feedparser Traceback (most recent call last)
python - 了解 python 2.7 email.feedparser Feedparser __init__ 函数
(所以我正在尝试学习 python。我认为阅读比我更好的人的代码会很好。我决定通读电子邮件模块...) email.feedparser 模块中 Feedparser 类的 init 函数定义为: d
Python feedparser 不返回任何条目
过去一周我一直在使用 feedparser 浏览 RSS 提要。今天使用它时，我的整个程序无法运行，我注意到错误似乎是在程序开始时，当我获取要循环的提要长度时。因此，例如，如果我要循环浏览 BBC
python - Feedparser 停止工作
昨天我安装了 feedparser(在 OSX 10.5 上)并且运行良好，但现在它停止工作了。这是脚本(从 feedparser 文档中复制) import feedparser d = feed
python - feedparser 和谷歌新闻
我正在尝试使用带有 python 的通用 feedparser 从 Google 新闻下载新闻语料库(以尝试进行一些自然语言处理)。我真的对 XML 一无所知，我只是用一个例子来说明如何使用 feed
python - Feedparser-基础如何
我是 Feedparser 的新手，经过长时间的休息后又回到了 Python，因此非常感谢任何帮助。我已经尝试过文档，它们非常好，但我仍然有点落后。我如何让 Feedparser 获取 rss 提要
python - Feedparser - 从谷歌阅读器中检索旧消息
我正在使用 python 中的 feedparser 库从本地报纸检索新闻(我的目的是对这个语料库进行自然语言处理)并且希望能够从 RSS 提要中检索许多过去的条目。我不是很熟悉 RSS 的技术问题
python - 带超时的 feedparser
我的代码卡在这个函数调用上: feedparser.parse("http://...") 这以前有效。该网址甚至无法在浏览器中打开。你会如何解决这个案子？有超时的可能吗？我想继续，就好像什么都不会发
rss - 在哪里可以找到 feedparser 文档？
feedparser 文档曾经在 http://feedparser.org/ 上可用但是 URL 现在说找不到资源并且没有转发地址。有人知道文档移到了哪里或者我可以在哪里找到文档吗？此外，使用
python - Feedparser - KeyError : 'fullcount'
我尝试关注 this guide 。这是关于制作一个物理 Gmail 通知程序。当我输入相同的代码时，它发现一个错误: Traceback (most recent call last): Fil
Python feedparser 返回第一个条目中第一个媒体项的 URL
我是第一次使用 python，我有点卡住了。使用 feedparser 解析 RSS feed，我想获取条目 0 的第一个媒体项的 URL 并将其加载到变量中。下面的代码似乎可以工作，但我必须按两
python - 将字符串从 feedparser 转换为日期时间
我想将如下获得的字符串转换为日期时间: d = feedparser.parse(xmlUrl) t = datetime.strptime(d.feed.updated, "%Y-%m-%dT%H:
python - 使用通用提要解析器 (feedparser) 获取自动发现链接
我刚开始使用 feedparser，想知道是否有任何方法可以获取自动发现链接列表。提前致谢。马西莫最佳答案 feedparser 不能自己做，但是 feedfinder2可以: from feed
python - Feedparser 日期参数/时间特定查询
feedparser 中是否有一个选项可以只查询比 feed.updated 更新的新条目？或者您可以设置一个参数以仅获取特定日期/今天/周等的条目吗？ (Safari 的 RSS 阅读器提供此选项
python - 强制 feedparser 清理所有内容类型
对于一个项目，我想使用feedparser 。基本上我已经成功了。在文档中section about sanitization据描述，并非所有内容类型都经过清理。如何强制 feedparser 对所
Python/feedparser 脚本不会显示在 CGI/字符编码上
#!/usr/bin/python # -*- coding: utf-8 -*- import sys import os import cgi import string import feedp
Python 2.7 编码和 feedparser
简而言之，我的情况是这样的: 从 RSS feed 读取数据将内容打印到终端当然，内容不是普通的 ascii 格式，而是 utf-8，所以我得到像“öäå”这样的字符。但是当我打印文本时，它全部被
python - reddit 的 feedparser 返回空
我正在尝试将 feedparser 与 python 结合使用以从 sub_reddit 获取最新的帖子。我有下面的代码，但是当我运行它时它没有返回任何东西。 import feedparser f
python - feedparser 无法获取 youtube 播放器
我正在测试 feedparser 在我的 rss 提要上。它就像一个魅力，我得到了所有条目。一些新闻有一个嵌入的 youtube 播放器，但这并没有出现在 feedparser 的返回值中。我的代
python - 不需要的 python feedparser 实例化遗迹
问题:如何终止实例化或确保我正在创建 python 通用 feedparser 的新实例化？信息: 我现在正在开发一个程序，可以下载和编目大量博客。除了一个不幸的错误外，它运行良好。我的代码设置为获

首页

博学

6Ren·AI

商城

python - 为什么 Python 的 feedparser 看不到 feed 中的所有元素