gpt4 book ai didi

python - 如何修复 Python 中损坏的 utf-8 编码?

转载 作者:太空狗 更新时间:2023-10-29 21:16:41 24 4
gpt4 key购买 nike

我的字符串是 Niệm BồTát (Thiá»n sÆ° Nhất Hạnh) 我想将它解码为 Niệm Bồ Tát ( Thiền sư Nhất Hạnh)。我在那个网站上看到可以做到这一点 http://www.enderminh.com/minh/utf8-to-unicode-converter.aspx

然后我开始尝试用 Python

mystr = '09. Bát Nhã Tâm Kinh'
mystr.decode('utf-8')

但实际上这是不正确的,因为原始字符串是 utf-8 但字符串显示不是我期望的结果。

注意:是越南字。

如何解决这种情况?那是 Windows Unicode 还是什么?如何在这里检测编码。

最佳答案

唯一帮助我解决损坏的西里尔字符串的东西 - https://github.com/LuminosoInsight/python-ftfy

这个模块几乎修复了所有问题,并且比在线解码器工作得更好。

>>> from ftfy import fix_encoding
>>> mystr = '09. Bát Nhã Tâm Kinh'
>>> fix_encoding(mystr)
'09. Bát Nhã Tâm Kinh'

可以使用pip install ftfy轻松安装

关于python - 如何修复 Python 中损坏的 utf-8 编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26491448/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com