gpt4 book ai didi

encoding - 如何从错误的编码中恢复文本?

转载 作者:行者123 更新时间:2023-12-01 11:09:29 24 4
gpt4 key购买 nike

我有一些文件是从一些亚洲操作系统(中文和日文 XP)创建的文件名乱码,例如:

иè+¾«Ñ¡Õä²ØºÏ¼­

如何恢复原文?我在 c# 中尝试过这个

Encoding unicode = Encoding.Unicode;
Encoding cinese = Encoding.GetEncoding(936);
byte[] chineseBytes = chinese.GetBytes(garbledString);
byte[] unicodeBytes = Encoding.Convert(unicode, chinese, chineseBytes);
//(Then convert byte in string)

并尝试将 unicode 更改为 windows-1252 但没有成功

最佳答案

这是一个双重编码的文本。原始文件在 Windows-936 中,然后某些应用程序假定文本在 ISO-8869-1 中并将结果编码为 UTF-8。这是一个如何在 Python 中对其进行解码的示例:

>>> print 'иè+¾«Ñ¡Õä²ØºÏ¼­'.decode('utf8').encode('latin1').decode('cp936')
新歌+精选珍藏合辑

我相信您可以在 C# 中做类似的事情。

关于encoding - 如何从错误的编码中恢复文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1564611/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com