python - feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现-6ren

python - feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

转载作者：行者123 更新时间：2023-12-01 06:16:49

25

4

当我运行 eclipse 或在 iPython 中运行我的脚本时，它会失败:

'ascii' codec can't decode byte 0xe2 in position 32: ordinal not in range(128)

我不知道为什么，但是当我简单地使用相同的 url 执行 feedparse.parse(url) 语句时，没有抛出错误。这让我很为难。

代码很简单:

      try:
           d = feedparser.parse(url)
      except Exception, e:
           logging.error('Error while retrieving feed.')
           logging.error(e)
           logging.error(formatExceptionInfo(None))
           logging.error(formatExceptionInfo1())

这是堆栈跟踪:

d = feedparser.parse(url)


 File "C:\Python26\lib\site-packages\feedparser.py", line 2623, in parse
    feedparser.feed(data)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1441, in feed
    sgmllib.SGMLParser.feed(self, data)
  File "C:\Python26\lib\sgmllib.py", line 104, in feed
    self.goahead(0)
  File "C:\Python26\lib\sgmllib.py", line 143, in goahead
    k = self.parse_endtag(i)
  File "C:\Python26\lib\sgmllib.py", line 320, in parse_endtag
    self.finish_endtag(tag)
  File "C:\Python26\lib\sgmllib.py", line 360, in finish_endtag
    self.unknown_endtag(tag)
  File "C:\Python26\lib\site-packages\feedparser.py", line 476, in unknown_endtag
    method()
  File "C:\Python26\lib\site-packages\feedparser.py", line 1318, in _end_content
    value = self.popContent('content')
  File "C:\Python26\lib\site-packages\feedparser.py", line 700, in popContent
    value = self.pop(tag)
  File "C:\Python26\lib\site-packages\feedparser.py", line 641, in pop
    output = _resolveRelativeURIs(output, self.baseuri, self.encoding)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1594, in _resolveRelativeURIs
    p.feed(htmlSource)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1441, in feed
    sgmllib.SGMLParser.feed(self, data)
  File "C:\Python26\lib\sgmllib.py", line 104, in feed
    self.goahead(0)
  File "C:\Python26\lib\sgmllib.py", line 138, in goahead
    k = self.parse_starttag(i)
  File "C:\Python26\lib\sgmllib.py", line 296, in parse_starttag
    self.finish_starttag(tag, attrs)
  File "C:\Python26\lib\sgmllib.py", line 338, in finish_starttag
    self.unknown_starttag(tag, attrs)
  File "C:\Python26\lib\site-packages\feedparser.py", line 1588, in unknown_starttag
    attrs = [(key, ((tag, key) in self.relative_uris) and self.resolveURI(value) or value) for key, value in attrs]
  File "C:\Python26\lib\site-packages\feedparser.py", line 1584, in resolveURI
    return _urljoin(self.baseuri, uri)
  File "C:\Python26\lib\site-packages\feedparser.py", line 286, in _urljoin
    return urlparse.urljoin(base, uri)
  File "C:\Python26\lib\urlparse.py", line 215, in urljoin
    params, query, fragment))
  File "C:\Python26\lib\urlparse.py", line 184, in urlunparse
    return urlunsplit((scheme, netloc, url, query, fragment))
  File "C:\Python26\lib\urlparse.py", line 192, in urlunsplit
    url = scheme + ':' + url
  File "C:\Python26\lib\encodings\cp1252.py", line 15, in decode
    return codecs.charmap_decode(input,errors,decoding_table)

部分解决:

当传递给 feedparser.parse() 的 URL 是 unicode 时，这是可重现的。当它是 ascii URL 时，它不会重现。郑重声明，您需要一个包含一些高字符 Unicode 字符的 Feed。我不确定这是为什么。

最佳答案

看起来给您带来问题的网址包含具有某种编码的文本(例如latin-1，其中0xe2将是“小写a，顶部有一个圆圈”，又名â )，没有正确的内容类型 header (它应该在 Content-Type: 中有一个 charset= 参数，但没有)。

如果是这种情况，feedparser 无法猜测编码，会尝试默认值 (ascii)，但会失败。

this part feedparser 的文档更详细地解释了这些问题。

不幸的是，没有“ Elixir ”来解决这个普遍问题(由于破坏了 XML 规则的 bozos)。您可以 try catch 此异常，并在处理程序中单独读取 url 的内容(使用 urllib2 )并尝试使用各种可能的编码对其进行解码 - 然后当您最终以这种方式获得可用的 unicode 对象时，输入that 到 feedparser.parse(其第一个参数可以是 url、文件流、或带有数据的 unicode 字符串)。 p>

关于python - feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2857450/

25

4

0

文章推荐： jquery - 从 ajax 发布 MVC Razor 表单

文章推荐： java - 如何检索 BufferedReader 的位置？

文章推荐： jquery - 使图像成为放大和缩小按钮

文章推荐： java - 检查四层、四宽、四高的井字游戏中的行

java - 交互式 JTable
我正在开发一个使用 JTable 的简单 Java 应用程序。我正在尝试实现我所看到的here 。给定链接上的表格的行为与我在表格中想要的行为完全相同。我已完全按照引用链接上显示的方式进行操作。但是
交互式 ocaml 解释器与另一个进程之间的通信
我需要将 *.ml 文件加载到 Ocaml 顶层(交互式解释器，当您在 shell 中键入“ocaml”时)，然后从 Matlab 进程发送指令，获取指令结果，发送返回另一条指令，... 我编写了这个
iOS 交互式 UILocalNotifications
我正在尝试实现交互式 UILocalNotifications。以下是我的代码。我无法获得接收通知的 3 个操作按钮。 UIMutableUserNotificationAction *nActio
CSS 交互式 map
我不是一个干净的 CSS 编码器，所以这可能是我问题的症结所在……但是……我从本教程中拼凑了一张交互式 map :http://www.noobcube.com/tutorials/html-css/
python - 交互式 python
这个问题在这里已经有了答案: 关闭 13 年前。 Possible Duplicate: How to save a Python interactive session? 我可以在“头脑 Stor
android - 交互式 ListView
我试图在不扩展 ListActivity 类的情况下创建交互式 ListView。布局应该是左侧的 RatingBar 和标签向右。这是我目前的代码，没有任何编译错误，但在应用程序启动时崩溃: pub
java - 交互式 Ant
我正在尝试使用 antlr 编写一种简单的交互式(使用 System.in 作为源)语言，但我遇到了一些问题。我在网上找到的例子都是使用每行循环，例如: while(readline) resul
java - 交互式 JTable
我想创建一个交互式 JTable。为此，我想在表格的单元格中添加 JPanel。一旦 JPanel 位于单元格中，我就可以将我的各种组件添加到 JPanel 中，从而使表格具有交互性。每个 JPane
Git 交互式 merge ？
我有两个具有完全相同文件的分支(如果您想知道它是一个 .sql 文件)，我想以交互方式 merge 它。我非常想像在发生冲突(或命令行)时那样打开一个 diff 程序，然后准确选择行到哪里。有什么
Git 交互式 rebase 重写提交
我想用交互式 rebase 编辑一个提交。当我用 edit 替换 pick 时，此提交的更改仍应用于 repo(以便我可以编辑提交)但我想从头开始重写它。我该怎么做？最佳答案在交互式 rebase
python - 交互式 Python - 相对导入的解决方案
来自 Python relative imports for the billionth time : 要使 from .. import 起作用，模块名称中的点数必须至少与 import 语句中的点
python - 交互式 Altair 图中的条形宽度
如何使条形与一整天一样宽？现在，条形图更像是划分一天的开始的线。我是否从条形标记切换到矩形标记？我会玩带秤吗？或者我是否在不修改数据的情况下强制分箱？现在条形图太细了。因为图形是交互式的，所以我无法
svn - 'svn add' 交互式
是否有任何命令行技巧可以让 SVN 添加来自 svn stat 的所有丢失的文件？互动？例如，类似于: svn add --interactive $ new file: file1.tmp
r - 交互式 R 中的异步命令调度
我想知道这是否可以(可能不是)使用 R 中的并行处理后端之一来完成。 .我尝试了一些谷歌搜索，但一无所获。我目前遇到的一般问题: 我有一些大物体需要大约半小时才能到达 load 我想在数据上生成一系
python - 交互式 Altair 绘图轴上方的文本
我一直在关注问题 here 的建议暂时将各种提示/信息放在我在 Altair 中的地 block 上。但是，如果 Altair 绘图设置为 interactive()，则此建议不起作用 - 在我看来，
shell - 交互式 shell 在孤立进程组中应该做什么？
简短的问题是，如果 shell 位于不拥有 tty 的孤立进程组中，它应该做什么？但我建议阅读长问题，因为它很有趣。这是一种有趣且令人兴奋的方法，可以使用您最喜欢的 shell 将您的笔记本电脑变成
Azure 交互式 shell 历史记录
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
.net - 交互式 .NET 图表工具？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
Java 交互式 CLI 选项提示
有没有办法实现交互式 cli，允许您从多个选项中进行选择？我想要实现如下目标: 显示的示例是使用 JavaScript 中的 Quirer.js 库实现的，但我似乎找不到在 Java 中实现类似功能
r - 交互式 R 启动脚本
我正在尝试使用运行一些命令的输入脚本来运行交互式 R (Windows XP)，然后让我进入 R 命令行提示符。但是，当我运行它时，它会退出。例如，这是输入文件: test.r: x = 1 x 以

首页

博学

6Ren·AI

商城

python - feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现