gpt4 book ai didi

有错误的 Python 解码 = 替换

转载 作者:行者123 更新时间:2023-11-28 19:18:00 25 4
gpt4 key购买 nike

我使用 Python 2.7 从网站上抓取一些 HTML 作为字符串,并立即将其解码为 un​​icode。因为稍后我需要知道哪里发生了解码错误,所以我认为最好使用 errors="replace"来防止非 ASCII 字符的异常:

linkname = curlinkname.decode("utf-8", errors="replace")

在大多数情况下,这会将问题字符替换为占位符。但是,当我运行代码时,这一行中的一个特定字符 (ū) 仍然出现异常:

UnicodeEncodeError: 'charmap' codec can't encode character u'\u016b' in position 1: character maps to <undefined>

这是怎么回事?

最佳答案

你需要先安装lib

pip install chardet

然后使用它

import chardet
code = chardet.detect(curlinkname)
linkname = curlinkname.decode(code['encoding'], errors="replace")

关于有错误的 Python 解码 = 替换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31167240/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com