- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在这里使用 python 2.7.1 上的 Beautiful Soup 3.2。
我最近一直在尝试让一些简单的东西起作用,但是它似乎相当棘手:
我做了以下事情:
temp=BeautifulSoup(urllib2.urlopen(urlList[1], None,15))
但是,我得到了错误:
File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in __init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfa' in
position 4: ordinal not in range(128)
如果我再次运行相同的循环,有时,我还会得到:
File "/home/foo/k/kat/BeautifulSoup.py", line 1519, in __init__
BeautifulStoneSoup.__init__(self, *args, **kwargs)
File "/home/foo/k/kat/BeautifulSoup.py", line 1144, in
__init__
self._feed(isHTML=isHTML)
File "/home/foo/k/kat/BeautifulSoup.py", line 1186, in _feed
SGMLParser.feed(self, markup)
File "/usr/lib/python2.7/sgmllib.py", line 104, in feed
self.goahead(0)
File "/usr/lib/python2.7/sgmllib.py", line 143, in goahead
k = self.parse_endtag(i)
File "/usr/lib/python2.7/sgmllib.py", line 320, in parse_endtag
self.finish_endtag(tag)
File "/usr/lib/python2.7/sgmllib.py", line 358, in finish_endtag
method = getattr(self, 'end_' + tag)
UnicodeEncodeError: 'ascii' codec can't encode characters in position
4-5: ordinal not in range(128)
如何避免这种错误?显然 sgmllib.py 有问题。
我尝试了 SOF 的一些解决方案:
*] 已尝试 soup = BeautifulSoup(page, fromEncoding=<encoding of the page>)
结果:执行工作,同样的错误。
*] 尝试将我的 sgmllib.py 从 2.7.2 版本升级到我的 2.7.1 版本结果:执行工作,同样的错误。
*] 已尝试 html = BeautifulSoup(page.encode('utf-8'))
结果:执行工作,同样的错误。
如果有任何关于如何解决此编码错误的建议,我将不胜感激。
最佳答案
在你的模块中尝试这段代码
if __name__ == "__main__":
reload(sys)
sys.setdefaultencoding("utf-8")
关于python - Beautiful soup 中的 UnicodeEncodeError (python 2.7.1),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8986849/
我不确定为什么会收到此错误: Exception Type: UnicodeEncodeError Unicode error hint The string that could not be en
我正在使用python-twiter使用 Twitter 的 API 搜索推文,但我遇到中文术语问题。这是重现该问题的最小代码示例: # -*- coding: utf-8 -*- import tw
我正在尝试使用 Twitter API 和 Python 来浏览 Twitter BIOS。 但是我收到此错误: newFile.writerow(info) UnicodeEncodeError:
我正在使用 Requests 和 BeautifulSoup 以及 Python 3.4 从网站上抓取可能包含也可能不包含日语或其他特殊字符的信息。 def startThisPage(url):
我有一个这样的记录器设置: import logging from logging.handlers import RotatingFileHandler import sys # root logg
我有一个 Python 抓取器,它抓取一个网站并将数据插入 MySql 数据库。突然间我得到了一个错误 UnicodeEncodeError: 'latin-1' codec can't encode
此代码应将一些文本写入文件。当我尝试将文本写入控制台时,一切正常。但是当我尝试将文本写入文件时,出现 UnicodeEncodeError。我知道,这是一个常见问题,可以使用适当的解码或编码来解决,但
我正在从事一个涉及自动生成文档(通过 latex )的项目。创建这些文档的人在 Windows 机器上工作(他以前使用 Microsoft word,但现在他在记事本中编辑它们)。无论如何,我注意到有
当我尝试在 UTF-8 字符串中查找单词的计数时,我得到了下一个: UnicodeEncodeError UnicodeEncodeError: 'ascii' codec can't encode
我在尝试将 UTF-8 字符串转换为 unicode 时遇到问题。我收到错误。 UnicodeEncodeError: 'ascii' codec can't encode characters in
我正在尝试用 Python 和 BeautifulSoup 解析这个文档: http://en.wikipedia.org/w/api.php?format=xml&action=opensearch
我正在尝试使用简单的 python print 语句。 print('这是') 但我遇到了这些问题。 我正在使用Windows。原子IDE。 python 3.6.5问候,巴努。 最佳答案 将 # -
无论我尝试什么解码和编码,我似乎都无法让它工作。我目前收到错误: UnicodeEncodeError: 'ascii' 编解码器无法对字符 u'\u2013' 进行编码 但是如果我要添加解码和编码,
这个问题已经有答案了: Python: Unicode and ElementTree.parse (3 个回答) 已关闭 7 年前。 在我的 Django 应用程序中,我使用 suds 库发出了肥皂
我正在尝试从 rockyou 单词列表中读取内容并将所有 >= 8 个字符的单词写入新文件。 这是代码 - def main(): with open("rockyou.txt", encod
我正在使用“pdfminer.six”(一个 Python 库)从我拥有的几个 PDF 中提取所有文本。我的方法工作完美,但对于某些 pdf,可能有一些特殊字符,当我将其写入文本文件时,我收到“Uni
我在生产系统中遇到错误,但我无法在开发环境中重现该错误: with io.open(file_name, 'wt') as fd: fd.write(data) 异常(exception):
当运行从标准输入读取的 Python 程序时,出现以下错误: UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position
它在执行以下代码时抛出“UnicodeDecodeError:‘ascii’编解码器无法解码位置 2 中的字节 0xc2:序号不在范围内(128)”: filename = 'Spywaj.ttf'
我有一个 python 脚本,在我的本地机器 (OS X) 上运行良好,但是当我将它复制到服务器 (Debian) 时,它无法按预期运行。该脚本读取 xml 文件并以新格式打印内容。在我的本地机器上,
我是一名优秀的程序员,十分优秀!