encoding - 如何解码十进制的 cp1252 “ 而不是\x93？-6ren

encoding - 如何解码十进制的 cp1252 “ 而不是\x93？

转载作者：行者123 更新时间：2023-12-03 06:26:01

29

4

我正在获取一个网页的源代码，编码是cp1252。Chrome 正确显示页面。

这是我的代码:

import sys
from urllib.request import urlopen
from bs4 import BeautifulSoup, UnicodeDammit
import re
import codecs

url = "http://www.sec.gov/Archives/edgar/data/1400810/000119312513211026/d515005d10q.htm"
page = urlopen(url).read()
print(page)
# A little preview :
# b'...Regulation S-T (&#167;232.405 of this chapter) during the preceding 12 months (or for such shorter period that the\nregistrant was required to submit and post such files).&nbsp;&nbsp;&nbsp;&nbsp;Yes&nbsp;&nbsp;<FONT STYLE="FONT-FAMILY:WINGDINGS">&#120;</FONT>...'

soup = BeautifulSoup(page, from_encoding="cp1252")
print(str(soup).encode('utf-8'))
# Same preview section as above
# b'...Regulation S-T (\xc2\xa7232.405 of this chapter) during the preceding 12 months (or for such shorter period that the\nregistrant was required to submit and post such files).\xc2\xa0\xc2\xa0\xc2\xa0\xc2\xa0Yes\xc2\xa0\xc2\xa0<font style="FONT-FAMILY:WINGDINGS">x</font>'

从预览部分我们可以看到
\; =\xc2\xa0
§ =\xc2\xa7
x = x

对于cp1252编码标准，我指的是 http://en.wikipedia.org/wiki/Windows-1252#Code_page_layout和/Lib/encodings/cp1252.py

当我使用 BeautifulSoup(page, from_encoding="cp1252") 时，某些字符编码正确，但其他一些字符编码不正确。

我使用此代码来获得等效项:

characters = "’ “ ” X § þ ¨ ' –"
list = characters.split()

for ch in list:
    print(ch)
    cp1252 = ch.encode('cp1252')
    print(cp1252)

    decimal = cp1252[0]

    special = "&#" + str(decimal)
    print(special)
    print(ch.encode('utf-8'))
    print()

offenders = [120, 146]

for n in offenders:
    toHex = hex(n)
    print(toHex)
print()

#120
off = b'\x78'
print(off)
buff = off.decode('cp1252')
print(buff)
uni = buff.encode('utf-8')
print(uni)
print()

#146
off = b'\x92'
print(off)
buff = off.decode('cp1252')
print(buff)
uni = buff.encode('utf-8')
print(uni)
print()

输出

’
b'\x92'
&#146
b'\xe2\x80\x99'

“
b'\x93'
&#147
b'\xe2\x80\x9c'

”
b'\x94'
&#148
b'\xe2\x80\x9d'

X
b'X'
&#88
b'X'

§
b'\xa7'
&#167
b'\xc2\xa7'

þ
b'\xfe'
&#254
b'\xc3\xbe'

¨
b'\xa8'
&#168
b'\xc2\xa8'

'
b"'"
&#39
b"'"

–
b'\x96'
&#150
b'\xe2\x80\x93'

0x78
0x92

b'x'
x
b'x'

b'\x92'
’
b'\xe2\x80\x99'

某些字符无法复制粘贴到编辑器，例如奇怪的 X 和奇怪的 '，因此我添加了一些代码来处理该问题。

我可以做什么来获取\xe2\x80\x9d 而不是\xc2\x94 for ” ()？

我的设置:
Windows 7
终端:chcp 1252 + Lucida Console 字体
Python 3.3
美丽汤4

期待您的答复

最佳答案

HTML 中的数字字符引用指的是 Unicode 代码点，即，它不依赖于文档的字符编码，例如是 U+0094 CANCEL CHARACTER* 。

b"\xe2\x80\x9d" 字节解释为 utf-8 为 U+201D RIGHT DOUBLE QUOTATION MARK :

u'\u201d'.encode('utf-8') == b'\xe2\x80\x9d'
u'\u201d'.encode('cp1252') == b'\x94'
u'\u201d'.encode('ascii', 'xmlcharrefreplace') == b'&#8221;'

要修复代码，请删除不必要的位:

from urllib.request import urlopen
from bs4 import BeautifulSoup

url = "http://www.sec.gov/path/to.htm"
soup = BeautifulSoup(urlopen(url))
print(soup)

如果失败；尝试 sys.stdout.buffer.write(soup.encode('cp1252')) 或将 PYTHONIOENCODING 环境变量设置为 cp1252:xmlcharrefreplace。

关于encoding - 如何解码十进制的 cp1252 &#147 而不是\x93？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17392422/

29

4

0

文章推荐： perforce - 是否可以恢复已删除的搁置文件？

文章推荐： debugging - 如何在IntelliJ Idea中进行playframework的调试

文章推荐： websocket - 在单个 Jetty 服务器中添加不同的处理程序

文章推荐： haskell - “tying the knot”的解释

c++ - 如何正确解释数字(十六进制、十进制、十进制)
我正在尝试编写一个程序，该程序接受十六进制、八进制和小数的输入，将它们存储在整数变量中，并将它们连同它们转换为十进制形式一起输出。例如: 用户输入:0x43、0123、65 程序输出: 0x43 he
javascript 正则表达式十进制
var re = /^([0-9]*)(\.[0-9]{2})$/ re.test(.22) true re.test(.20) false re.test(10.02) true re.test(1
grails - Grails中输入字段的动态格式化(十进制)
我有一个类型为BigDecimal的属性“initialPrice”的“Trade”类。该属性可以根据另一个类别“Symbol”中包含的属性“decimals”，小数位数会有所不同，因此需要使用不同
c# - 使用数组进行统计(十进制)
我是这里编码的新手。我正在尝试使用编码来显示平均值、最大值和最小值的统计信息。我遇到了错误，他们说我无法将 decimal[] 转换为 int[]。我在我的代码旁边评论了下面的错误。这是最后几行之
C#:十进制 -> 可以精确存储的最大整数
在不久的将来，我一直在研究小数类型以获得一些可能的编程乐趣，并希望将它用作比 Int64 更大的整数。一个关键点是我需要找出我可以安全地存储为小数(不丢失精度)的最大整数；我这样说，因为显然它在那里使
c - 如何将地址转换为网络掩码(十进制)
所以我这样做了: for(i=1;i0;i--) { if(MASKBINARY[i-1]==1 && MASKBINARY[i]==0) // check if the next eleme
javascript - 四舍五入到最接近的指定数字(十进制)
我正在尝试将数字四舍五入到最接近的指定小数。我希望它四舍五入到小数点 .11、.22、.33、.44、.55、.66、.77、.88 但不是 .99。相反，0.99 应该是 1。例如: 1.14
Python 十进制 modf
获取 python (python 3) Decimal 的整数部分和小数部分的最有效方法是什么？这是我现在拥有的: from decimal import * >>> divmod(Decimal
CSS:删除列表样式类型中的句点:十进制
我有一个使用十进制列表样式的 ol: ol li { list-style-type: decimal; } First Second 编号工作正常，但如何删除句点？而不是显示: 1.
Java泛型将字节数组转换为字符串(非十六进制，十进制)
将字节数组转换为具有所选基数的字符串的最佳方法是什么？ S.O. 上有大量示例。和其他地方转换为十六进制字符串。我在这里主要感兴趣的是将十六进制或十进制字符串转换为其他；也是一种更通用的方式。这是我
c# sizeof 十进制？
不清楚十进制类型的 sizeof。以字节为单位的大小是否像在 sql server 中一样因精度而异？ c# 类型的精度变量是“十进制”吗？我不想打开不安全的代码来只调用小数类型的 sizeof。你
C# 十进制，如何添加尾随零
我必须向十进制值添加尾随零。不仅用于显示(因此 Format 不是一个选项)，而且用于实际的底层数据，因为小数精度在我们的应用程序中很重要。我试过: decimal value = 1M decim
c# - 十进制？类型不是特定于文化的
我正在使用以下代码行将 decimal 转换为 string: decimal a = 0; a.ToString(); Resharper 给了我以下警告:“明确指定字符串区域性”。我想这是有道理的
c# - 十进制 - 截断尾随零
我注意到 .NET 在涉及小数和尾随零时有一些古怪/不直观的行为。 0m == 0.000m //true 0.1m == 0.1000m //true 但是 (0m).ToString() == (
C语言:十进制,BCD码互换详解
最近写单片机 RTC 日期、时间配置，需要实现十进制、BCD码互换，将示例Demo分享给各位朋友： BCD是指用二进制来表示十进制数的编码，即：用4位二进制来表示一位十进制数，因此4位二进制数
C# 十进制(字符串类型)在最后一个字符处四舍五入
这似乎是重复的，但我找不到合适的答案(问题足够接近但是..)我有一个代表十进制数的字符串，它总是有很多小数位，至少 20，有时最多 2000 (代表特定的验证计算，即像'是数字 135 到 147 素
hex - 十进制 <--> 二进制补码 <--> 十六进制转换
我想知道我是否会收到这样的问题: "Convert a decimal number to two's complement, then give your answer in Hex". 下面是路径
sql - 存储过程返回 .00 十进制
此存储过程不返回十进制格式 00.00 的薪水 ALTER PROCEDURE taxable_varsalary @emp_code bigint, @co_id bigint AS de
r - 传单setView缩放级别为R中的非整数(十进制)值？
使用 leaflet R 包，有没有办法将 zoom 设置为非整数(即十进制)值？也就是说，介于这两个缩放级别之间: 例子随着 zoom 从第 3 级移动到第 4 级，它看起来好像正在四舍五入到最
string - 如何将数字字符串转换为数字(十进制)和数字到字符串
我如何编写一个函数来将十进制数字符串转换为十进制数并将十进制数转换为字符串？最佳答案有非常方便的 clojure 函数可以将任何内容转换为字符串以及将类似数字的内容转换为 BigDecimal:

首页

博学

6Ren·AI

商城

encoding - 如何解码十进制的 cp1252 “ 而不是\x93？